Method Article
Galaxy et David sont apparus comme des outils populaires qui permettent aux enquêteurs sans formation de bio-informatique pour analyser et interpréter les données d'ARN-Seq. Nous décrivons un protocole pour C. elegans aux chercheurs d'effectuer des expériences ARN-Seq, l' accès et de traiter l'ensemble de données en utilisant Galaxy et d' obtenir des informations biologiques significatives à partir des listes de gènes en utilisant DAVID.
technologies de séquençage de nouvelle génération (NGS) ont révolutionné la nature de la recherche biologique. Parmi ceux-ci, l'ARN de séquençage (ARN-Seq) est devenue un outil puissant pour l'analyse de l'expression génique et cartographie transcriptome. Cependant, la manipulation des ensembles de données d'ARN-Seq nécessite une expertise informatique sophistiquée et pose des défis inhérents aux chercheurs en biologie. Ce goulot d'étranglement a été atténué par le projet Galaxy d'accès ouvert qui permet aux utilisateurs sans compétences en bio-informatique pour analyser les données d'ARN-Seq, et la base de données pour l'annotation, la visualisation et la découverte intégrée (DAVID), une analyse terme Gene Ontology (de GO) de suite qui aide tirer signification biologique de grands ensembles de données. Toutefois, pour les nouveaux utilisateurs et les amateurs de bio-informatique, l'auto-apprentissage et de familiarisation avec ces plates-formes peut prendre beaucoup de temps et intimidante. Nous décrivons un flux de travail simple qui aidera à C. elegans chercheurs pour isoler l' ARN sans fin, mener une expérience d'ARN-Seqet d'analyser les données en utilisant des plates-formes Galaxy et David. Ce protocole fournit des instructions par étapes pour l'utilisation des différents modules Galaxy pour l'accès aux données de l'END premières vérifications de contrôle de qualité, l'alignement et l'analyse de l'expression génique différentielle, guidant l'utilisateur avec des paramètres à chaque étape pour générer une liste de gènes qui peuvent être criblés pour l'enrichissement de classes de gènes ou de processus biologiques à l'aide de DAVID. Dans l' ensemble, nous prévoyons que cet article fournira des informations à C. elegans chercheurs qui entreprennent des expériences d'ARN-Seq pour la première fois ainsi que les utilisateurs fréquents en cours d' exécution d' un petit nombre d'échantillons.
Le premier séquençage du génome humain, réalisée en utilisant la méthode didésoxynucléotide-séquençage de Fred Sanger, a 10 ans et a coûté 3 milliards $ US environ 1, 2. Cependant, dans un peu plus d'une décennie depuis sa création, le séquençage de nouvelle génération (NGS) la technologie a permis de séquencer l'ensemble du génome humain dans les deux semaines et pour 1000 $ US. De nouveaux instruments qui permettent NGS toujours plus des vitesses de collecte de données d'séquençage avec une incroyable efficacité, ainsi que de fortes réductions des coûts, sont en train de révolutionner la biologie moderne de façon inimaginable que des projets de séquençage du génome deviennent rapidement monnaie courante. De plus, ces développements ont galvanisé des progrès dans de nombreux autres domaines tels que l'analyse de l'expression des gènes par ARN-séquençage (ARN-Seq), étude du génome à l'échelle des modifications épigénétiques, les interactions ADN-protéines, et le dépistage de la diversité microbienne dans des hôtes humains. ARN-Se-NGS à baseq en particulier, a permis d'identifier et de cartographier transcriptome globalement la précision et la sensibilité, et a remplacé la technologie des puces à ADN comme méthode de choix pour le profilage d'expression. Bien que la technologie des puces à ADN a été largement utilisée, elle est limitée par sa dépendance à l'égard des réseaux préexistants avec des informations génomiques connues, et d'autres inconvénients tels que l'hybridation croisée et la gamme restreinte de changements d'expression qui peut être mesurée de manière fiable. ARN-Seq, d'autre part, peut être utilisé pour détecter à la fois les transcriptions connus et inconnus, tout en produisant un faible bruit de fond en raison de sa nature cartographie de l'ADN non équivoque. ARN-Seq, ainsi que les nombreux outils génétiques offerts par des organismes modèles tels que la levure, les mouches, les vers, les poissons et les souris, a servi de base pour de nombreuses importantes découvertes biomédicales récentes. Cependant, d'importants défis subsistent qui rendent NGS inaccessibles à la communauté scientifique dans son ensemble, y compris les limites de stockage, le traitement, et la plupart de tous, m analyse bioinformatique eaningful de grands volumes de données de séquençage.
Les progrès rapides des technologies de séquençage et de l'accumulation exponentielle des données ont créé un grand besoin de plates-formes de calcul qui permettront aux chercheurs d'accéder, d'analyser et de comprendre ces informations. Les premiers systèmes étaient fortement tributaires des connaissances de programmation informatique, alors que, les navigateurs du génome tels que NCBI qui a permis aux non-programmeurs d'accéder et de visualiser les données ne permettaient pas des analyses sophistiquées. Le Web, la plate - forme ouverte d'accès, Galaxy ( https://galaxyproject.org/ ), a rempli ce vide et avéré être un pipeline précieux qui permet aux chercheurs de traiter les données et effectuer NGS un spectre de simple à complexe analyse bio-informatique. Galaxy a d'abord été établie et est maintenue, par les laboratoires d'Anton Nekrutenko (Penn State University) et James Taylor (Johns Hopkins University)f "> 3. Galaxy propose une large gamme de tâches de calcul qui en fait un « guichet unique » pour les besoins innombrables de bio - informatique, y compris toutes les étapes impliquées dans une étude de l' ARN-Seq. Itallows utilisateurs pour effectuer le traitement des données soit sur ses serveurs ou localement sur leurs propres machines. les données et les flux de travail peuvent être reproduits et partagés. les didacticiels en ligne, aide et une page wiki ( https://wiki.galaxyproject.org/Support ) dédié au projet Galaxy fournissent un soutien constant. Cependant, pour les utilisateurs pour la première fois, en particulier ceux sans formation de bio-informatique, le pipeline peut sembler décourageants et le processus d'auto-apprentissage et de familiarisation peut prendre du temps. En outre, le système biologique étudié, et les spécificités de l'expérience et les méthodes utilisées, l'impact les décisions d'analyse à plusieurs étapes, et celles-ci peuvent être difficiles à naviguer sans instruction.
Le RN total A-Seq Galaxy flux de travail se compose de transfert de données et de contrôle de qualité suivie d' une analyse en utilisant le Tuxedo Suite 4, 5, 6, 7, 8, 9, qui est un collectif de différents outils nécessaires à différentes étapes de l' analyse des données de l' ARN-Seq 10, 11, 12, 13, 14. Une expérience d'ARN-Seq typique se compose de la partie expérimentale (préparation de l'échantillon, l'isolement de l'ARNm et préparation banque d'ADNc), l'END et l'analyse des données bio-informatique. Un aperçu de ces sections, et les étapes du pipeline Galaxy, sont présentés dans la figure 1.
3fig1.jpg »/>
Figure 1: Vue d' ensemble d'un ARN-Seq Workflow. Illustration des étapes expérimentales et informatiques impliquées dans une expérience d'ARN-Seq pour comparer les profils d'expression génique de deux souches de vers (A et B, les lignes orange et vert et des flèches, respectivement). Les différents modules de Galaxy utilisés sont indiqués dans les cases avec l'étape correspondante dans notre protocole indiqué en rouge. Les sorties de différentes opérations sont écrites en gris avec les formats de fichiers en bleu. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.
Le premier outil de la Tuxedo Suite est un programme d'alignement appelé « Tophat ». Il se décompose l'entrée NGS lit en fragments plus petits, puis les cartes à un génome de référence. Ce procédé en deux étapes assure que les lectures couvrant les régions introniques dont l'alignement peut être autrement disrupted ou manqués sont pris en compte et cartographiées. Cela augmente la couverture et facilite l'identification des jonctions nouvelles d'épissage. Sortie Tophat est rapporté que deux fichiers, un fichier de lit (avec des informations sur les jonctions d'épissage qui comprennent l' emplacement génomique) et un fichier BAM (avec des détails cartographiques de chaque lecture). Ensuite, le fichier BAM est aligné sur un génome de référence pour estimer l'abondance des relevés de notes individuelles dans chaque échantillon à l' aide de l'outil suivant dans la suite Tuxedo appelé « » Boutons de manchette. Boutons de manchette fonctions en balayant l'alignement pour signaler des fragments de transcription complète ou « transfrags » qui couvrent toutes les variantes d'épissage possibles dans les données d'entrée pour chaque gène. Sur cette base, il génère un « transcriptome » (ensemble de tous les transcrits générés par gène pour chaque gène) pour chaque échantillon étant séquencées. Ces ensembles de boutons de manchette sont alors effondrés ou ont fusionné ensemble avec la regénome rence pour produire un fichier d'annotation pour l' analyse différentielle en aval en utilisant l'outil suivant, 'Cuffmerge. Enfin, les mesures de l' outil « Cuffdiff » expression différentielle de gènes entre des échantillons en comparant les sorties de TopHat de chacun des échantillons dans le fichier de sortie de Cuffmerge finale (Figure 1). Cufflinks utilise des valeurs FPKM / RPKM (Fragments / Reads par kilobase de la transcription par million cartographié lectures) de faire rapport abondances de transcription. Ces valeurs reflètent la normalisation des données de l'END premières pour la profondeur (nombre moyen de lectures à partir d'un échantillon alignement sur le génome de référence) et la longueur des gènes (gènes ont des longueurs différentes, de sorte que les chiffres doivent être normalisées pour la longueur d'un gène pour comparer les niveaux entre les gènes). FPKM et RPKM sont essentiellement les mêmes avec RPKM utilisé pour l'ARN-Seq-end unique où chaque lecture correspond à un seul fragment, tandis que, FPKM est utilisé pourARN-Seq-end associé, car il tient compte du fait que deux lectures peuvent correspondre au même fragment. En fin de compte, le résultat de ces analyses est une liste de gènes exprimés de manière différentielle entre les conditions et / ou les souches testées.
Une fois un succès run Galaxy est terminée et une « liste de gènes » est générée, la prochaine étape logique exige plus des analyses bio-informatique pour en déduire des connaissances significatives à partir des ensembles de données. De nombreux logiciels ont vu le jour pour répondre à ce besoin, y compris les progiciels de calcul basés sur le Web accessibles au public , tels que DAVID (la base de données pour l' annotation, la visualisation et la découverte intégrée) 15. DAVID facilite l'attribution sens biologique à des listes de gènes provenant d'études à haut débit en comparant la liste des gènes transféré à sa base de connaissances biologique intégrée et révélant les annotations biologiques associées à la liste des gènes. Il est suivi par l' analyse d' enrichissement, par exemple, des tests à identifier si un processus biologique ou une catégorie gène est surreprésenté dans la liste de gène (s) d'une manière statistiquement significative. Il est devenu un choix populaire en raison d'une combinaison d'un large, des algorithmes d' analyse et de base de connaissances intégrée puissants qui permettent aux chercheurs de détecter des thèmes biologiques enrichis au sein de la génomique dérivées 10 « listes de gènes », 16. D'autres avantages sont sa capacité à traiter des listes de gènes créés sur une plate-forme de séquençage et une interface très conviviale.
Le nématode Caenorhabditis elegans est un système de modèle génétique, bien connu pour ses nombreux avantages tels que de petite taille, le corps transparent, plan de corps simple, la facilité de la culture et à la dissection grande amenability génétique et moléculaire. Worms ont un petit, simple et génome bien annotée qui comprend jusqu'à 40% des gènes conservés avec homologues humains connus 17. En effet, C. elegansa été le premier métazoaire dont le génome a été entièrement séquencé 18, et une de la première espèce , où l' ARN-Seq a été utilisé pour cartographier le transcriptome d'un organisme 19, 20. Les premières études de ver impliqués expérimentation de méthodes différentes pour la capture d'ARN à haut débit, la préparation et le séquençage bibliothèque, ainsi que les pipelines de bio - informatique qui ont contribué à l'avancement de la technologie 21, 22. Ces dernières années, l'expérimentation à base d'ARN-Seq vers est devenu monnaie courante. Mais, pour les biologistes des vers traditionnels les défis posés par l'analyse informatique des données d'ARN-Seq demeurent un obstacle majeur pour une meilleure utilisation et une meilleure de la technique.
Dans cet article, on décrit un protocole pour l' utilisation de la plate - forme Galaxy pour analyser les données d'ARN-Seq à haut débit provenant de C. elegans. Pour beaucoup pour la première fois et le petit-scautilisateurs Le, la façon la plus rentable et facile à entreprendre une expérience d'ARN-Seq est d'isoler l'ARN dans le laboratoire et utiliser un commercial (ou interne) installation NGS pour la préparation de banques d'ADNc de séquençage et la centrale nucléaire elle-même. Par conséquent, nous avons d' abord en détail les étapes de l' isolement, l' évaluation de la quantification et la qualité de C. elegans échantillons d'ARN pour l' ARN-Seq. Ensuite, nous fournissons des instructions étape par étape pour l'utilisation de l'interface Galaxy pour l'analyse des données de l'END, en commençant par des tests de contrôles de qualité post-séquençage suivi par l'alignement, l'assemblage et la quantification différentielle de l'expression génique. De plus, nous avons inclus les directions pour examiner les listes de gènes résultant de Galaxy pour des études d'enrichissement biologique en utilisant DAVID. En tant que dernière étape du flux de travail, nous fournissons des instructions pour le téléchargement des données d'ARN-Seq aux serveurs publics tels que l'archive Lire la séquence (SRA) sur NCBI ( http: // www.ncbi.nlm.nih.gov/sra) pour le rendre librement accessible à la communauté scientifique. Dans l'ensemble, nous prévoyons que cet article fournira des informations complètes et suffisantes pour les biologistes de ver expériences d'ARN qui entreprennent-Seq pour la première fois ainsi que les utilisateurs fréquents en cours d'exécution d'un petit nombre d'échantillons.
1. Isolement de l'ARN
2. ARN-Seq analyse des données
Figure 2: Structure du panneau d' interface utilisateur Galaxy et d' ARN-Seq - clés fonctions. Les principales caractéristiques de la page sont développés et mis en évidence. (A) met en évidence la fonction « Analyse des données » dans l' en- tête de la page Web utilisée pour accéder Analyse Accueil Voir. (B) est la « barre de progression » indiquant l'espace sur le serveur Galaxy utilisé par l'opération. (C) est la « section Outils » qui répertorie tous les outils qui peuvent être exécutés sur l'interface Galaxy. (D) représente les «END: ARN Analyse de la section de l' outil utilisé pour l' analyse de l' ARN-Seq. (E) représente le panneau « Historique » qui répertorie tous les fichiers générés à l' aide Galaxy. (F) montre un exemple de la boîte de dialogue qui ouvre en cliquant sur un fichier dans la section Historique. Within (F), la boîte bleue met en évidence les icônes qui peuvent être utilisés pour afficher, editthe attributs ou supprimer l'ensemble de données, la boîte violacés icônes qui peuvent être utilisés pour « modifier » les balises ensemble de données ou d' annotations, et la boîte rouge indique les icônes pour télécharger les données, voir les détails de la tâche accomplie ou réexécuter l'opération. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.
3. Gene Ontology (GO) Analyse terme en utilisant DAVID
Figure 3: Mise en page de l'Assistant DAVID analyse Web et des exemples de résultats d' exploitation. L'interface utilisateur Web « analyse Wizard » répertorie les outils utilisés pour analyser la liste des gènes uploadé pour l' enrichissement en fonction de divers paramètres. En cliquant sur ces outils rapporte les données analysées dans une nouvelle page Web. Des exemples de rapports tabulaires générés par Gene Classification fonctionnelle », « Tableau fonctionnel Annotation » et « Clustering Annotation fonctionnelle » sont présentés comme EISN (flèches).> S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.
4. Les données RAW sur Uploading la séquence NCBI Lire Archive (SRA)
Dans C. elegans, l' élimination des cellules souches de lignée germinale (les CSS) étend la durée de vie, améliore la résistance au stress, et élève la graisse du corps 24, 28. Perte de CSS, soit provoquée par une ablation au laser ou par des mutations telles que le GLP-1, provoque l' extension de la durée de vie grâce à l' activation d'un réseau de 29 facteurs de transcription. Un de ces facteurs, TCER-1, code pour l'homologue de la vis sans fin de l'allongement de la transcription humaine et le facteur d' épissage, TCERG1 30. Les résultats représentatifs suivants illustrent comment l' ARN-Seq a été utilisé pour identifier les gènes dont l' expression est modulée par TCER-1 / TCERG1 suite à une perte germinale dans notre étude récemment publiée 31. Les transcriptome de appariés selon l' âge, le jour 2 adultes de GLP-1 et URCE-1, GLP-1 mutants ont été comparés. Pour chaque souche, l'ARNm a été isolé à partir de deux réplique biologiquetes (quatre échantillons totalement) en utilisant le protocole décrit dans la section 1. Les échantillons d'ARN ont été expédiés à un fournisseur de service commercial qui a préparé des banques d'ADNc à partir des quatre échantillons et effectué 50 pb unique séquençage d'extrémité. Les données brutes NGS a été téléchargé comme décrit dans la section 2.1.
séquençage évaluation des données post
Le tableau 1 est une compilation des résultats des tests pour évaluer la qualité de lit séquençage brut. Analyse de contrôle qualité « FASTQ » met en évidence le nombre de séquences de lecture sans « mauvaise qualité » se lit en même temps que 48 à 49% de teneur en GC et une séquence constante de longueur lecture de 51 pb. Cette étape vérifie également les données de séquençage pour de nombreuses autres fonctionnalités telles que le contenu Kmer et collectivement composé de 11 essais au total. Le génome C. elegans est ~ 100 Mbp. Sur la base du nombre de séquençage lit à partir de chaque échantillon mis en correspondance avec le génome, le gcouverture enome (dernière colonne) a été estimée en utilisant l'équation Lander / Waterman « C = LN / G », dans lequel, C représente la couverture, G est la longueur du génome haploïde, L est la longueur de lecture et N est le nombre de lectures. Nous avons utilisé les paramètres par défaut pour toutes les étapes et obtenu 48 - 49% de teneur en GC dans tous les échantillons. Comme on peut le voir, la couverture du génome était entre 9x à 11x dans les échantillons.
Identification des TCER-1 / TCERG-1-régulée des gènes par l'analyse d'expression différentielle gène sur Galaxy
A travers les étapes décrites dans les sections 2.2 à 2.4, le pipeline Galaxy 3 a été utilisé pour obtenir une liste de gènes exprimés de manière différentielle entre GLP-1 et tCER-1; glp-1 mutants. Galaxy nous a permis de combiner l'analyse différentielle des données NGS des deux répétitions pour chaque souche et réalisée pour générer des fichiers tabulaires mettant en évidence le génome large expression prOFIL. L' utilisation d' un seuil d'au moins une fois le changement d'amplitude et une valeur P d'au moins 0,05, une liste des 835 gènes qui étaient différentiellement exprimés entre les deux souches a été généré 31. La liste est divisée sur la base de si l' expression des gènes a été régulée à la baisse dans tCER-1 mutants de GLP-1 (359 UP gènes dont la transcription est probablement amélioré par TCER-1 / TCERG1) ou régulée à la hausse (476 gènes DOWN dont la transcription est réprimée probablement par TCER-1 / TCERG1) par rapport au GLP-1 (Figure 4).
Figure 4: Identification de gènes TCER-1 / TCERG1 réglementées dans la lignée germinale-less C. elegans mutants en utilisant l' ARN-Seq: Résultats de Galaxy (A) et DAVID (B) Analyses. (A) d'analyse de l' expression génique différentielle de données d'ARN-seq sont comparésles transcriptomes de GLP-1 et tCER-1, GLP-1 a donné un total de 835 gènes, dont 359 ont été identifiés comme étant régulée à la hausse par TCER-1 / TCERG1 (UP) et 476 comme down-régulé par TCER-1 / TCERG1 (DOWN). (B) Les résultats de l' analyse 'fonctionnelle Annotation Clustering' des gènes identifiés comme tCER-1 / TCERG1 cibles en utilisant DAVID. Enrichissement en pourcentage des processus biologiques aussi bien pour les Up Réglementé (UP) et régulés à la baisse (BAS) Classes de tCER-1 / TCERG1 cibles. Le graphique représenté ici est obtenue en traçant les groupes de gènes enrichis (axe X) et leur enrichissement en pour cent respectif (axe Y) obtenus en tant que sortie de l'analyse DAVID. Figure modifiée à partir de Amrit et al. 31 et Reproduit avec la permission. S'il vous plaît cliquer ici pour voir une version plus grande de ce chiffre.
Gene Ontology Analyse Enrichissement
Pour obtenir un aperçu des classes de gènes cibles enrichis en TCER-1 / TCERG1, nous avons effectué une analyse à long terme de l'ontologie génétique (GO) en utilisant DAVID. Le TCER-1 / TCERG1 régulée UP et des listes de gènes BAS ont été téléchargés de façon indépendante sur DAVID et analysé comme décrit dans la section 3. On savait peu sur les gènes et les processus cellulaires ciblés par TCER-1 / TCERG1 précédemment 30, nous avons donc trouvé le DAVID analyse être particulièrement révélatrice et utile. Analyse d'annotation fonctionnelle des gènes UP a révélé cinq groupes d'annotation avec un enrichissement Score de> 1,3, le plus élevé , y compris des gènes codant pour des enzymes du cytochrome P450 et des gènes de réponse xénobiotiques, suivis par des gènes impliqués dans des modifications lipidiques. Cela a été renforcé par les résultats de l'analyse génétique de la classification fonctionnelle qui a identifié les groupes attribués à Molecula similairesactivités r avec des scores d'enrichissement significatif. En utilisant une feuille de calcul, les groupes identifiés ont été tracées en fonction de leurs scores respectifs d'enrichissement (figure 4). Nos données antérieures suggéré que TCER-1 / TCERG1 a fonctionné avec le facteur de transcription de la longévité Confit, DAF-16 / FOXO3a, de promouvoir la longévité de la CGC-moins 30 adultes. DAF-16 / FOXO3a, à son tour, a été impliqué dans la modulation du métabolisme des lipides dans les études récentes 27, 32, 33. Sur la base de ces éléments de preuve, et l'identification des gènes de lipides métaboliques et les voies que le potentiel tCER-1 / TCERG1 cibles dans la DAVID analyses, nous nous sommes concentrés sur les gènes du métabolisme des graisses identifiés dans l'étude de l'ARN-Seq pour des études mécanistiques détaillées. À la suite de ce fil, et par une expérimentation ultérieure génétique moléculaire, biochimique et fonctionnel, nous avons démontré que TCER-1 / TCERG1 avec DAF-16 / FOXO3a coordonnée Enhanced tant catabolique lipides et des processus anabolisants en réponse à la perte germinale 31. De même, Clustering Annotation fonctionnelle du BAS TCER-1 / TCERG1 cibles identifiées grappes d'annotation enrichis pour les fonctions du cytosquelette, une régulation positive de la croissance, la reproduction et le vieillissement (Figure 4). Ces observations et nos preuves à l' appui expérimentales suggèrent que lors de la perte germinale, TCER-1 / TCERG1 réprime également la croissance et la physiologie de la reproduction dans les cellules somatiques, ainsi que l'expression des gènes anti-longévité 31.
Échantillon | séquences totales | Longueur | % GC | Nombre de lectures (Galaxy) | Les lectures cartographié (Galaxy) | La couverture du génome |
GLP-1 | 4000000 | 51 | 49 | 20700539 | ~ 16000000 | 11x |
GLP-1; tCER-1 | 4000000 | 51 | 49 | 18055444 | ~ 13000000 | 9x |
GLP-1 | 4000000 | 51 | 48 | 18947463 | ~ 14000000 | 10x |
GLP-1; tCER-1 | 4000000 | 51 | 48 | 13829643 | ~ 10000000 | 7x |
Tableau 1: ARN-Seq Détails de l' échantillon. Compilation des attributs de données brutes évaluées post-séquençage pour confirmer le succès de la course de séquençage. Les données de séquençage de l'expérience représentative est constituée de deux conditions biologiques, une souche témoin (GLP-1 ) Et une souche mutante (tCER-1, GLP-1) avec deux répétitions biologiques séquencées pour chacun. Analyse de contrôle de la qualité « FastQC » met en évidence le nombre de séquences lu sans « mauvaise qualité » se lit, 48 - 49% de teneur en GC et une séquence constante longueur de lecture 51bp. Modifié et reproduit avec l' autorisation de Amrit et al. 31.
Fichier supplémentaire: la chaîne de commandement en bref pour les outils fonctionnent sur le pipeline Galaxy pour l' analyse de données ARN-Seq. S'il vous plaît cliquer ici pour télécharger ce fichier.
Importance de la plate-forme de séquençage Galaxy en biologie moderne
Le projet Galaxy est devenu un instrument pour aider les biologistes sans formation de bio-informatique pour traiter et analyser les données de séquençage à haut débit de manière rapide et efficace. Une fois considéré comme une tâche herculéenne, cette plate-forme accessible au public a fait des algorithmes en cours d'exécution de bio-informatique pour analyser les données complexes NGS un processus simple, fiable et facile. En plus d'accueillir un large éventail d'outils de bio-informatique, la clé du succès pour Galaxy est aussi la simplicité de son interface utilisateur lacets ensemble les différents aspects de l'analyse de séquençage complexe d'une manière intuitive et transparente. Grâce à ces caractéristiques, le pipeline Galaxy a acquis une large utilisation parmi les biologistes, y compris les chercheurs C. elegans. En plus de familiariser l'utilisateur avec le pipeline d'analyse ARN-Seq, Galaxy contribue également à jeter les bases pour les biologistes de base à saisir laconcept d'analyse des données et comprendre les outils impliqués. Cette connaissance des nombres premiers à l'utilisateur peut encore poursuivre les plates-formes de bio-informatique plus complexes tels que « R » et « Python ». En plus de Galaxy, d'autres outils et forfaits sont disponibles dans le commerce et que des solutions open source, qui peuvent être utilisés pour l'analyse de l'ARN-Seq. Les options commerciales sont souvent des logiciels autonomes qui sont conviviaux, mais peut être coûteux pour les chercheurs individuels qui n'utilisent pas NGS souvent. Alternativement, les plates - formes open source telles que BioWadrobe 34 et 35 ArrayExpressHTS exigent une connaissance pratique de la ligne de commande et les scripts en cours d' exécution, ce qui pose d' importants défis pour les non-bioinformaticiens. Par conséquent, Galaxy reste une ressource populaire et indispensable.
Les étapes critiques au sein du protocole
Les avantages sans effort de Galaxy et David, malgré une expérience ARN-Seq succès encorerepose fondamentalement sur une conception soignée et l'exécution de l'étape expérimentale. Par exemple, il est essentiel d'assurer l'homogénéité génétique avant de comparer deux souches par l'ARN-Seq, et pour déterminer s'il y a des différences dans les taux de développement. ARN Isoler à partir de souches d'âge correspondant est essentiel aussi bien. De même, pour tenir compte de la variabilité de l'expression génique au sein de la même souche, il est important d'exécuter deux ou plusieurs « répétitions biologiques » de chaque souche. Cela signifie essentiellement la croissance et les vers de récolte des souches en cours de séquençage dans des expériences au moins twoindependent, bien que trois répétitions biologiques est la norme recommandée. Galaxy unifie les données provenant de multiples répétitions biologiques de sorte que les différences d'expression génique entre les souches rapportées ne sont pas simplement une conséquence de la variabilité «intra-échantillon.
Une décision de conception critique est de l'utilisation de contre-end unique séquençage à extrémité appariée. Avecséquençage simple effet, chaque fragment est séquence unidirectionnelle de sorte que le procédé est plus rapide, moins cher et adapté pour le profilage de la transcription. Dans séquençage à extrémité appariée, une fois que le fragment est séquence à partir d'une extrémité à l'autre, une deuxième série de séquençage est repris dans la direction opposée. Il fournit des données plus approfondies et des informations de positionnement supplémentaire du génome, est donc plus adapté pour l' assemblage du génome de novo, nouvelle identification SNP et pour identifier les modifications épigénétiques, des suppressions, des insertions et inversions. De même, le nombre total de lectures et de l'étendue de la couverture du génome requis pour les études d'expression différentielle adéquates dépend du contexte. Pour les petits génomes, comme les bactéries et les champignons, ~ 5 millions de lectures est suffisante, alors que, dans les vers et les mouches ~ 10 millions de lectures fournir une couverture adéquate. Pour les organismes avec de grands génomes tels que les souris et les humains, 15-25000000 lit est la plage requise. De plus, le numéro de lecture et de la couverture, il est également diablotinortant que la plupart des NGS lit aligner au génome de référence. Un alignement de <70% est une indication de lit pauvres NGS ou la présence de contaminants. Dans l' ensemble, pour C. elegans études d'ARN-Seq, trois répétitions biologiques séquences avec le séquençage unidirectionnel 50 pb résultant en ~ 10-15000000 lit et ~ 5-10x couverture du génome de chaque échantillon est un objectif idéal.
Malgré la facilité d'utilisation Galaxy, il y a quelques points à retenir afin d'assurer une expérience d'analyse de données lisse et sans pépin. Il est nécessaire pour l'utilisateur d'avoir une compréhension de base dans le but et le fonctionnement des différents outils utilisés. Chaque outil Galaxy nécessite une sélection de paramètres et la compréhension de l'outil permettra à l'utilisateur d'optimiser les paramètres en fonction des besoins de l'expérience. Les pages d'aide Galaxy expliquent tous les paramètres et il est recommandé que l'utilisateur Lisez attentivement ces informations pour décider des variables de test.
La liste de gènes obtenue post analyse de l'ARN-Seq est simplement une liste de gènes jusqu'à ce qu'il soit extrait des données pertinentes à l'aide DAVID biologiquement. Ceci est un exercice important qui convertit les données à base de gènes individuels dans les résultats basés sur processus biologique. Explorer la liste des gènes ARN-Seq en utilisant les différentes analyses DAVID fournit donc une partie intégrante et importante du protocole.
Les modifications, le dépannage et les limites
Un petit problème commun avec l'analyse des données NGS est des tâches ou des tests qui échouent, en particulier aux étapes de contrôle de la qualité. Des tests qui FastQC fonctionne sur un échantillon, quelques pourrait arriver comme un échec. Cependant, cela ne signifie pas forcément l'échantillon ne répond pas aux normes de qualité de fastq. L'échec pourrait avoir une autre explication qui devrait être explorée avec soin.
Par exemple, si le test « par la teneur en séquence de base » ne parvient pas ( ce qui suggère qu'il y a une différence supérieure à 10% entredes bases dans une position quelconque), vérifier le procédé pour la préparation de bibliothèque de oligodT. Des travaux antérieurs ont montré que les bibliothèques Illumina NGS peuvent avoir une propension à la base 13 e étant séquencée d'avoir un parti pris pour certaines bases provoquant l'échantillon à l' échec du test. De même, un échec du test « contenu Kmer » peut parfois être attribuée au fait que les bibliothèques dérivées d'amorçage aléatoire montreront presque toujours parti pris Kmer au début en raison d'un échantillonnage incomplet des amorces aléatoires. Il est donc important d'examiner ces facteurs et d'autres obstacles dans la conduite d'analyse avant de déterminer le sort de l'expérience.
Une autre caractéristique importante qui peut influer sur l'analyse des données ARN-Seq est les progrès rapides et exponentielles qui se produisent dans les méthodes et NGS logiciel d'analyse. Idéalement, on attend une liste de gènes identiques aux résultats de l'analyse d'un échantillon de données de l'END sur deux pipelines ou de deux versions du même tuyauligne. Cependant, alors que les algorithmes en constante amélioration sont la diminution des aberrations dans l'analyse de l'ARN-Seq et produire des listes de gènes d'une plus grande précision, ce qui conduit souvent à des disparités. Par exemple, l' analyse d' un échantillon de données NGS en utilisant une ancienne version plus récente par rapport à la même gamme d' outils peut produire des listes de gènes sensiblement différentes. On prévoit une variation modeste, mais les utilisateurs doivent être conscients que les grandes différences peuvent refléter des faiblesses dans la conception ou l'exécution de l'expérience.
Collectivement, les outils d'analyse du projet Galaxy et David ont transformé la façon dont les données NGS peuvent être mises à profit pour extraire des informations pertinentes biologiquement. Cela a ouvert des niveaux entièrement nouveaux d'indépendance et d' enquête à la communauté scientifique, y compris les chercheurs C. elegans. Par exemple, le coût de la réduction constante séquençage couplé avec une meilleure et la technologie de séquençage plus rapide sont inaugurant une ère de transcriptomique au niveau des vers simples,les tissus individuels de vers et même sélectionner quelques cellules de ver. Ces efforts impliquent une augmentation spectaculaire de données NGS générées. Garder le contact avec la fin d' analyse de ce flux de travail sera un défi, mais en raison de sa polyvalence, Galaxy est susceptible de jouer un rôle dans l' autonomisation de la transition de l' organisme entier transcriptomique à l' ARN-Seq au niveau cellulaire unique C. elegans. Les progrès résultant des connaissances sont susceptibles de fournir des indications extraordinaires en biologie fondamentale.
Les auteurs n'ont rien à dévoiler.
Les auteurs tiennent à exprimer leur gratitude aux laboratoires, les groupes et les individus qui ont développé Galaxy et David, et donc en NGS largement accessibles à la communauté scientifique. L'aide et les conseils fournis par des collègues de l'Université de Pittsburgh au cours de notre formation de bio-informatique est reconnue. Ce travail a été soutenu par une fondation médicale Ellison nouveau chercheur en récompense le vieillissement (AG-NS-0879-12) et une subvention des National Institutes of Health (R01AG051659) à AG.
Name | Company | Catalog Number | Comments |
RNase spray | Fisher Scientific | 21-402-178 | |
Trizol | Ambion | 15596026 | |
Sonicator | Sonics Vibra Cell | VCX130 | |
Centrifuge | Eppendorf | 5415C | |
chloroform | Sigma Aldrich | 288306 | |
2-propanol | Fisher Scientific | A416P-4 | |
Ethanol | Decon Labs | 2705HC | |
RNase-free water | Fisher Scientific | BP561-1 | |
Bioanalyzer | Agilent | G2940CA | |
Mac/PC |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon