Exercice 1: prise en main des données et du format fastq
Se rendre sur le site du NCBI et en une requête, rechercher les run SRR7062654 et SRR7062655.
Solution- saisir SRR7062654 OR SRR7062655
- puis aller dans SRA
Explorer les metadonnées : organisme ? échantillon ? séquenceur utilisé ? séquençage pairé ?
Solution- poulet
- Ethioian-Horro1-indigenous-chicken
- Illumina HiSeq 2500
- PAIRED
Manipulation du format fastq.
A partir des fichiers que vous avez recupérés comme indiqué sur la page introduction, faites les opérations suivantes.- Afficher le contenu du fichier
SRR7062654_R1.fastq.gz
à l'aide de la commandezmore
.
Solutionzmore SRR7062654_R1.fastq.gz
- Extraire et comparer les 5 premiers identifiants de chaque fastq du run SRR7062654.
Solutionzgrep '^@SRR' SRR7062654_R1.fastq.gz | head -n 5
@SRR7062654.369 @SRR7062654.405 @SRR7062654.484 @SRR7062654.649 @SRR7062654.706
zgrep '^@SRR' SRR7062654_R2.fastq.gz | head -n 5
@SRR7062654.369 @SRR7062654.405 @SRR7062654.484 @SRR7062654.649 @SRR7062654.706
- Quel est le nombre de fragments dans le run SRR7062654 ?
Solutionzgrep -c '^@SRR' SRR7062654_R?.fastq.gz
SRR7062654_R1.fastq.gz: 993954 SRR7062654_R2.fastq.gz: 993954
- Combien de lectures contiennent un ou plusieurs « N » dans le run SRR7062654 ?
Solutionzgrep -c '^[ATCG]*N[ATCGN]*$' SRR7062654_R?.fastq.gz
SRR7062654_R1.fastq.gz:2887 SRR7062654_R2.fastq.gz:2778
- Afficher le contenu du fichier
Analyse de la qualité du séquençage, pour cela suivre les indications suivantes :
- Rechercher le module fastqc
- Charger le module
- Lancer le logiciel fastqc sur chaque fichier fastq (plusieurs façons de faire mais dans tous les cas l'exécution doit se faire sur le cluster !)
- Vérifier l'exécution à l'aide de la commande
squeue -u USERNAME
Solution onelinesearch_module fastqc module load bioinfo/FastQC/0.12.1 for i in *.fastq.gz ; do echo "fastqc $i"; done > 0_fastqc.jobs mkdir LOGS sarray -J 0_fastqc -e LOGS/%x_%j.err -o LOGS/%x_%j.out 0_fastqc.jobs
💡 la syntaxe de la boucle for en Bash est
for VAR in LIST; do CMDS; done
. La variableVAR
prend tour à tour les valeurs contenues dansLIST
et les commandesCMDS
sont exécutées. IciLIST
est constituée des noms des fichiers du répertoire courant se terminant par.fastq.gz
.Explorer les rapports html en utilisant le public_html.
- Créer un répertoire pour rendre accessibles les fichiers via le web :
mkdir -p ~/save/public_html; ln -s ~/save/public_html ~/public_html chmod a+x ~/save ; chmod 755 ~/save/public_html
- Copier les rapports fastQC
*.html
dans votre~/public_html
Accéder via un navigateur à la page https://web-genobioinfo.toulouse.inrae.fr/~USERNAME et visualiser les fichiers html.cp *.html ~/public_html/
- Créer un répertoire pour rendre accessibles les fichiers via le web :
Fin de l'exercice.
SolutionBingo: aller boire un café !