Exercice 1: prise en main des données et du format fastq
Se rendre sur le site du NCBI et en une requête, rechercher les run SRR7062654 et SRR7062655.
Solution- saisir SRR7062654 OR SRR7062655
- puis aller dans SRA
Explorer les metadonnées : organisme ? échantillon ? séquenceur utilisé ? séquençage pairé ?
Solution- poulet
- Ethioian-Horro1-indigenous-chicken
- Illumina HiSeq 2500
- PAIRED
Manipulation du format fastq.
A partir des fichiers que vous avez recupérés comme indiqué sur la page introduction, faites les opérations suivantes.- Afficher le contenu du fichier
SRR7062654_R1.fastq.gzà l'aide de la commandezmore.
Solutionzmore SRR7062654_R1.fastq.gz- Extraire et comparer les 5 premiers identifiants de chaque fastq du run SRR7062654.
Solutionzgrep '^@SRR' SRR7062654_R1.fastq.gz | head -n 5@SRR7062654.369 @SRR7062654.405 @SRR7062654.484 @SRR7062654.649 @SRR7062654.706zgrep '^@SRR' SRR7062654_R2.fastq.gz | head -n 5@SRR7062654.369 @SRR7062654.405 @SRR7062654.484 @SRR7062654.649 @SRR7062654.706- Quel est le nombre de fragments dans le run SRR7062654 ?
Solutionzgrep -c '^@SRR' SRR7062654_R?.fastq.gzSRR7062654_R1.fastq.gz: 993954 SRR7062654_R2.fastq.gz: 993954- Combien de lectures contiennent un ou plusieurs « N » dans le run SRR7062654 ?
Solutionzgrep -c '^[ATCG]*N[ATCGN]*$' SRR7062654_R?.fastq.gzSRR7062654_R1.fastq.gz:2887 SRR7062654_R2.fastq.gz:2778- Afficher le contenu du fichier
Analyse de la qualité du séquençage, pour cela suivre les indications suivantes :
- Rechercher le module fastqc
- Charger le module
- Lancer le logiciel fastqc sur chaque fichier fastq (plusieurs façons de faire mais dans tous les cas l'exécution doit se faire sur le cluster !)
- Vérifier l'exécution à l'aide de la commande
squeue -u USERNAME
Solution onelinesearch_module fastqc module load bioinfo/FastQC/0.12.1 for i in *.fastq.gz ; do echo "fastqc $i"; done > 0_fastqc.jobs mkdir LOGS sarray -J 0_fastqc -e LOGS/%x_%j.err -o LOGS/%x_%j.out 0_fastqc.jobs💡 la syntaxe de la boucle for en Bash est
for VAR in LIST; do CMDS; done. La variableVARprend tour à tour les valeurs contenues dansLISTet les commandesCMDSsont exécutées. IciLISTest constituée des noms des fichiers du répertoire courant se terminant par.fastq.gz.Explorer les rapports html en utilisant le public_html.
- Créer un répertoire pour rendre accessibles les fichiers via le web :
mkdir -p ~/save/public_html; ln -s ~/save/public_html ~/public_html chmod a+x ~/save ; chmod 755 ~/save/public_html - Copier les rapports fastQC
*.htmldans votre~/public_html
Accéder via un navigateur à la page https://web-genobioinfo.toulouse.inrae.fr/~USERNAME et visualiser les fichiers html.cp *.html ~/public_html/
- Créer un répertoire pour rendre accessibles les fichiers via le web :
Fin de l'exercice.
SolutionBingo: aller boire un café !