Method Article
Galaxy e David sono emersi come strumenti popolari che permettono ai ricercatori senza formazione bioinformatica per analizzare e interpretare i dati di RNA-Seq. Descriviamo un protocollo per la C. elegans ai ricercatori di effettuare RNA-Seq esperimenti, l'accesso ed elaborare il set di dati utilizzando Galaxy e ottenere informazioni biologiche significative dalle liste di geni con David.
Next generation sequencing (NGS) tecnologie hanno rivoluzionato la natura della ricerca biologica. Di questi, RNA Sequencing (RNA-Seq) è emersa come un potente strumento per l'analisi di espressione genica e la mappatura del trascrittoma. Tuttavia, la manipolazione serie di dati di RNA-Seq richiede sofisticate competenze computazionali e pone sfide insite per i ricercatori di biologia. Questo collo di bottiglia è stato mitigato dal progetto open access Galaxy che permette agli utenti senza competenze di bioinformatica per l'analisi dei dati di RNA-Seq, e la base di dati per l'annotazione, la visualizzazione e integrato Discovery (David), un Gene Ontology (GO) Suite analisi termine che aiuta derivare significato biologico da grandi insiemi di dati. Tuttavia, per gli utenti prima volta e dilettanti bioinformatica, auto-apprendimento e la familiarizzazione con queste piattaforme può richiedere molto tempo e scoraggiante. Descriviamo un flusso di lavoro semplice che vi aiuterà a C. elegans ai ricercatori di isolare l'RNA a vite senza fine, condurre un esperimento di RNA-Seqe analizzare i dati utilizzando piattaforme Galaxy e David. Questo protocollo fornisce istruzioni graduali per l'utilizzo dei vari moduli Galaxy per l'accesso ai dati grezzi NGS, alcun controllo di qualità, l'allineamento e analisi differenziale espressione genica, guidando l'utente con i parametri ad ogni passo di generare un elenco gene che può essere proiettato per l'arricchimento di classi di geni o processi biologici con David. Nel complesso, prevediamo che questo articolo vi fornirà le informazioni di C. elegans ricercatori che effettuano esperimenti di RNA-Seq per la prima volta così come gli utenti che eseguono frequenti un piccolo numero di campioni.
Il primo sequenziamento del genoma umano, effettuata con il metodo dideoxynucleotide-sequenziamento di Fred Sanger, sono voluti 10 anni, con un costo stimato US $ 3 miliardi di 1, 2. Tuttavia, in poco più di un decennio, sin dal suo inizio, Next-Generation Sequencing Technology (NGS) ha reso possibile sequenziare l'intero genoma umano entro due settimane e per US $ 1.000. Nuovi strumenti che permettono di NGS sempre crescente velocità di raccolta sequenziamento-dati con incredibile efficienza, con una riduzione dei costi vivi, stanno rivoluzionando la biologia moderna in modi inimmaginabili, come i progetti di sequenziamento del genoma stanno rapidamente diventando un luogo comune. Inoltre, questi sviluppi hanno galvanizzato progressi in molti altri settori quali l'analisi dell'espressione genica mediante RNA-Sequencing (RNA-Seq), studio delle modificazioni epigenetiche tutto il genoma, interazioni DNA-proteina e screening per la diversità microbica in ospiti umani. NGS a base di RNA-Seq in particolare, ha permesso di identificare e mappare trascrittomi completo con accuratezza e sensibilità, e ha sostituito microarray come metodo di scelta per profili di espressione. Mentre la tecnologia microarray è stato ampiamente utilizzato, è limitata dalla sua dipendenza array preesistenti con nota informazione genomica e altri inconvenienti come ibridazione incrociata e ristretta gamma di cambiamenti di espressione che può essere misurato in modo attendibile. RNA-Seq, d'altra parte, può essere utilizzato per rilevare sia le trascrizioni noti e ignoti, mentre la produzione a basso rumore di fondo a causa della sua natura ambigua mappatura del DNA. RNA-Seq, insieme ai numerosi strumenti genetici offerti da organismi modello come il lievito, mosche, vermi, pesci e topi, ha servito come base per molti recenti scoperte biomediche importanti. Tuttavia, permangono delle sfide significative che compongono NGS inaccessibili alla comunità scientifica più ampia, comprese le limitazioni di conservazione, elaborazione, e la maggior parte di tutti, m analisi bioinformatica eaningful di grandi volumi di dati di sequenziamento.
I rapidi progressi nelle tecnologie di sequenziamento e l'accumulo esponenziale dei dati hanno creato un grande bisogno di piattaforme computazionali che permetteranno ai ricercatori di accedere, analizzare e comprendere queste informazioni. I primi sistemi erano fortemente dipendente dalla conoscenza di programmazione di computer, mentre, i browser genoma quali NCBI che hanno permesso ai non programmatori di accedere e visualizzare i dati non permetteva analisi sofisticate. La piattaforma web-based, ad accesso aperto, Galaxy ( https://galaxyproject.org/ ), ha riempito questo vuoto e dimostrato di essere un oleodotto prezioso che consente ai ricercatori di elaborare i dati NGS ed eseguire uno spettro di semplice da complessi analisi bioinformatica. Galaxy è stato inizialmente stabilito, ed è mantenuto, dai laboratori di Anton Nekrutenko (Penn State University) e James Taylor (Johns Hopkins University)f "> 3. Galaxy offre una vasta gamma di compiti computazionali che lo rende un 'one-stop shop' per le esigenze di bioinformatica innumerevoli, compresi tutti i passaggi necessari per uno studio di RNA-Seq. Itallows agli utenti di eseguire l'elaborazione dei dati sia sui propri server o localmente sulle proprie macchine. i dati e flussi di lavoro possono essere riprodotti e condivisi. tutorial online, sezione di aiuto, e un wiki-page ( https://wiki.galaxyproject.org/Support ) dedicato al Progetto Galaxy forniscono un supporto costante. Tuttavia, per prima volta gli utenti, in particolare quelli con nessuna formazione bioinformatica, la pipeline può apparire scoraggiante e il processo di auto-apprendimento e di familiarizzazione può richiedere molto tempo. Inoltre, il sistema biologico studiato, e le specifiche di questo esperimento e metodi utilizzati, l'impatto le decisioni di analisi in diversi passaggi, e questi possono essere difficili da navigare senza istruzioni.
Il complesso RN A-Seq Galaxy Workflow consiste di caricamento dei dati e di controllo della qualità seguita da analisi usando l'smoking Suite 4, 5, 6, 7, 8, 9, che è un collettivo di vari strumenti necessari per le diverse fasi di analisi dei dati RNA-Seq 10, 11, 12, 13, 14. Un tipico esperimento RNA-Seq consiste nella parte sperimentale (preparazione del campione, l'isolamento di mRNA e preparazione di cDNA library), il NGS e l'analisi bioinformatica dei dati. Una panoramica di queste sezioni, e le fasi coinvolte nella pipeline Galaxy, sono mostrati in Figura 1.
3fig1.jpg"/>
Figura 1: Sintesi di un Workflow RNA-Seq. Illustrazione delle fasi sperimentali e computazionali coinvolti in un esperimento RNA-Seq di confrontare i profili di espressione genica di due ceppi di vite senza fine (rispettivamente A e B, le linee arancioni e verdi e frecce,). I diversi moduli Galaxy utilizzati sono mostrati in scatole con passo corrispondente nel nostro protocollo indicato in rosso. Le uscite di varie operazioni sono scritte in grigio con i formati di file indicati in blu. Si prega di cliccare qui per vedere una versione più grande di questa figura.
Il primo strumento nel Tuxedo Suite è un programma di allineamento chiamato 'Tophat'. Si rompe l'ingresso NGS si legge in frammenti più piccoli e poi li associa ad un genoma di riferimento. Questo processo in due fasi assicura che legge regioni ponte introniche cui allineamento può altrimenti essere disrupted o mancati sono contabilizzati e mappati. Questo aumenta la copertura e facilita l'identificazione di nuovi giunzioni di splicing. Uscita Tophat viene segnalato come due file, un file LETTO (con informazioni sulle giunzioni di splicing che comprendono posizione genomica) e un file di BAM (con i dettagli di mappatura di ogni lettura). Successivamente, il file BAM è allineato contro un genoma di riferimento per stimare l'abbondanza delle singole trascrizioni all'interno di ogni campione usando il successivo strumento nel Tuxedo Suite chiamata 'Gemelli'. Gemelli funzioni di scansione l'allineamento di riferire frammenti trascrizione full-length o 'transfrags' che si estendono su tutte le possibili varianti di splicing nei dati di input per ogni gene. Sulla base di questo, si genera un 'trascrittoma' (assemblea di tutti i trascritti generati per gene per ogni gene) per ogni campione viene sequenziato. Questi gemelli assembly vengono poi compresso o fuse insieme lungo con la rirenza genoma per produrre un singolo file di annotazione per l'analisi differenziale a valle usando l'utensile successivo, 'Cuffmerge'. Infine, il 'Cuffdiff' utensile misure differenziale espressione genica tra i campioni confrontando le uscite Tophat di ciascuno dei campioni al file di output Cuffmerge finale (Figura 1). Gemelli utilizza FPKM / RPKM (Frammenti / Legge Per kilobase di trascrizione per milione mappato letture) valori segnalare abbondanze trascrizione. Questi valori riflettono la normalizzazione dei dati NGS prime per profondità (numero medio di letture da un campione che si allineano al genoma di riferimento) e la lunghezza del gene (geni hanno lunghezze diverse, in modo conteggi devono essere normalizzati per la lunghezza di un gene per confrontare i livelli tra geni). FPKM e RPKM sono essenzialmente le stesse con RPKM utilizzato per single-end RNA-Seq dove ogni lettura corrisponde ad un singolo frammento, che, FPKM serveabbinato-end RNA-Seq, in quanto rappresenta il fatto che due letture possono corrispondere allo stesso frammento. In definitiva, il risultato di queste analisi è una lista dei geni differenzialmente espressi tra le condizioni e / o ceppi testati.
Una volta che una corsa Galaxy successo è completato e viene generato una 'lista gene', il passo logico successivo richiede più bioinformatica analisi dedurre conoscenze significative da set di dati. Molti pacchetti software sono emerse per soddisfare questa esigenza, inclusi i pacchetti computazionale basati sul web pubblicamente disponibili come David (il database per l'annotazione, la visualizzazione e la scoperta Integrata) 15. DAVID facilita l'assegnazione di significato biologico di grandi liste di geni provenienti da studi ad alto throughput confrontando la lista gene caricato al suo knowledge base biologica integrata e rivelando le annotazioni biologiche associate con l'elenco dei geni. Questo è seguito da analisi arricchimento, cioè, prove a identify se qualsiasi processo o gene classe biologica è sovrarappresentato nella lista gene (s) in un modo statisticamente significativo. E 'diventato una scelta popolare a causa di una combinazione di un ampio, base di conoscenze integrata e algoritmi di analisi potenti che consentono ai ricercatori di individuare temi biologici arricchiti entro genomica-derivato 'liste di geni' 10, 16. Ulteriori vantaggi sono la sua capacità di elaborare liste di geni creati su qualsiasi piattaforma di sequenziamento e un'interfaccia altamente user-friendly.
Nematode Caenorhabditis elegans è un sistema modello genetico, ben noto per i suoi numerosi vantaggi come piccole dimensioni, corpo trasparente, semplice corpo piano, facilità di coltura e grande amenability per dissezione genetica e molecolare. Vermi hanno una piccola, semplice e ben annotato genoma che comprende fino al 40% geni conservati con noti omologhi umani 17. Infatti, C. elegansè stato il primo metazoo cui genoma è stato completamente sequenziato 18, e una delle prime specie dove RNA-Seq è stato usato per mappare transcriptome di un organismo 19, 20. I primi studi verme coinvolto la sperimentazione di metodi diversi per high-throughput di cattura RNA, preparazione biblioteca e sequenziamento così come condutture di bioinformatica che hanno contribuito al progresso della tecnologia 21, 22. Negli ultimi anni, la sperimentazione RNA-Seq-based nei vermi è diventato un luogo comune. Ma, per i biologi vite senza fine tradizionali le sfide poste dalla analisi computazionale dei dati di RNA-Seq rimangono uno dei principali ostacoli per una maggiore e migliore utilizzo della tecnica.
In questo articolo, si descrive un protocollo per l'utilizzo della piattaforma Galaxy analizzare alto throughput dati RNA-Seq generati da C. elegans. Per molti la prima volta e piccole-SCALe utenti, il modo più conveniente e semplice da intraprendere un esperimento RNA-Seq è quello di isolare l'RNA in laboratorio e utilizzare una commerciale (o in-house) impianto NGS per la preparazione di librerie di cDNA sequenziamento e l'NGS stesso. Quindi, abbiamo prima descritto le fasi in isolamento, quantificazione e valutazione della qualità di C. elegans campioni di RNA per l'RNA-Seq. Successivamente, forniamo istruzioni passo-passo per l'utilizzo dell'interfaccia Galaxy per analisi dei dati NGS, iniziando con test per la post-sequenziamento alcun controllo di qualità seguiti da allineamento, assemblaggio, e differenziale quantificazione dell'espressione genica. Inoltre, abbiamo incluso le indicazioni per scrutare le liste di geni derivanti da Galaxy per gli studi di arricchimento biologici con David. Come passo finale nel flusso di lavoro, mettiamo a disposizione le istruzioni per il caricamento dei dati di RNA-Seq ai server pubblici come la sequenza Leggi Archive (SRA) su NCBI ( http: // www.ncbi.nlm.nih.gov/sra) per renderlo liberamente accessibile alla comunità scientifica. Nel complesso, prevediamo che questo articolo vi fornirà informazioni complete e sufficienti per biologi vite senza fine che intraprendono esperimenti di RNA-Seq per la prima volta così come gli utenti che eseguono frequenti un piccolo numero di campioni.
Isolamento 1. RNA
2. RNA-Seq analisi dei dati
Figura 2: Layout della Galassia utente pannello di interfaccia e funzioni chiave di RNA-Seq. Le caratteristiche principali della pagina vengono espansi ed evidenziati. (A) mette in evidenza la funzione 'Analizzare i dati' nell'intestazione pagina web utilizzato per l'accesso Analisi casa View. (B) è la 'barra di avanzamento' che indica lo spazio sul server Galaxy utilizzato dall'operazione. (C) è la 'Strumenti sezione' che elenca tutti gli strumenti che possono essere eseguiti sull'interfaccia Galaxy. (D) mostra i 'NGS: RNA Analisi' sezione utensili utilizzati per l'analisi di RNA-Seq. (E) raffigura il pannello 'Storia' che elenca tutti i file generati utilizzando Galaxy. (F) mostra un esempio della finestra di dialogo che si apre quando si clicca su un qualsiasi file nella sezione storia. All'interno (F), la scatola blu mette in evidenza le icone che possono essere utilizzati per visualizzare, editthe attributi o eliminare il set di dati, la casella viola mette in evidenza le icone che possono essere utilizzati per 'modifica' i tag set di dati o di annotazione, e, la casella rossa indica icone per scaricare i dati, visualizzare i dettagli delle operazioni svolte o eseguire nuovamente l'operazione. Si prega di cliccare qui per vedere una versione più grande di questa figura.
3. Gene Ontology (GO) Analisi Termine con David
Figura 3: Struttura della DAVID Analisi guidata pagina web e Esempi di uscite di funzionamento. Interfaccia utente web 'Analisi guidata' sono elencati gli strumenti utilizzati per analizzare la lista gene caricati per l'arricchimento in base a diversi parametri. Cliccando su questi strumenti riporta i dati analizzati in una nuova pagina web. Esempi di report tabulari generati da 'Gene classificazione funzionale', 'Annotazione grafico funzionale' e 'annotazione funzionale Clustering' sono mostrate come gli intarsi laterali (frecce).> Clicca qui per vedere una versione più grande di questa figura.
4. Caricamento dei dati RAW sul NCBI sequenza Leggi Archive (SRA)
In C. elegans, eliminazione delle cellule staminali germinali (GSC) si estende durata, aumenta lo stress resilienza, ed eleva il grasso corporeo 24, 28. Perdita di GSCs, sia causata da laser ablazione o da mutazioni come GLP-1, provoca estensione durata attraverso l'attivazione di una rete di fattori di trascrizione 29. Uno di questi fattori, tCER-1, codifica l'omologo verme della trascrizione allungamento e splicing fattore umano, TCERG1 30. I seguenti risultati rappresentativi illustrano come RNA-Seq è stato utilizzato per identificare i geni la cui espressione è modulata da tCER-1 / TCERG1 in seguito alla perdita della linea germinale nel nostro studio pubblicato di recente 31. I trascrittoma di pari età, giorno 2 adulti di GLP-1 e tCER-1; GLP-1 mutanti sono stati confrontati. Per ogni ceppo, mRNA è stato isolato da due replica biologicaTES (quattro campioni totalmente) usando il protocollo descritto nella sezione 1. I campioni di RNA sono stati inviati ad un fornitore di servizi commerciale che librerie di cDNA preparata dai quattro campioni ed eseguito 50 bp singola sequenza finale. I dati grezzi NGS è stato scaricato come descritto nella sezione 2.1.
Messaggio valutazione dei dati di sequenziamento
Tabella 1 è una raccolta dei risultati dei test per valutare la qualità del sequenziamento cruda legge. Analisi controllo qualità 'FASTQ' evidenzia il numero di sequenze di lettura senza 'scarsa qualità' legge insieme al contenuto GC 48-49% e una sequenza costante lettura lunghezza di 51 bp. Questo passaggio controlla anche i dati di sequenziamento per molte altre caratteristiche come il contenuto Kmer ed è fatta collettivamente da 11 test in totale. Il C. elegans genoma è ~ 100 Mbp. In base al numero di sequenziamento legge da ogni campione che mappato il genoma, il gcopertura enome (ultima colonna) è stata stimata usando l'equazione Lander / Waterman 'C = LN / G', in cui, C sta per copertura, G è la lunghezza del genoma aploide, L è la lunghezza di lettura e N è il numero di letture. Abbiamo utilizzato parametri di default per tutti i passaggi e ottenuto 48-49% contenuto di GC in tutti i campioni. Come si può vedere, la copertura del genoma è stato tra 9x a 11x nei campioni.
Identificazione di tCER-1 / Genes TCERG-1-regolato da Gene Expression differenziale Analisi su Galaxy
Attraverso i passaggi descritti nelle sezioni da 2.2 a 2.4, il Galaxy conduttura 3 è stato usato per ottenere un elenco di geni differenzialmente espressi tra GLP-1 e tCER-1, GLP-1 mutanti. Galaxy ci ha consentito di combinare i dati NGS dai due repliche per ogni ceppo ed eseguito analisi differenziale per generare file tabulari evidenziando l'ampia espressione genoma proFile. Tramite una soglia di cambiamento almeno una volte in grandezza e il valore P di almeno 0,05, un elenco di 835 geni che erano differenzialmente espressi tra i due ceppi è stata generata 31. La lista è stata divisa in base a se l'espressione dei geni è stata down-regolato in tCER-1; GLP-1 mutanti (359 UP geni la cui trascrizione è probabile arricchito da tCER-1 / TCERG1) o fino regolate (476 geni GIÙ cui trascrizione è probabile repressa da tCER-1 / TCERG1) rispetto a GLP-1 (figura 4).
Figura 4: Identificazione di geni tCER-1 / TCERG1 regolati in Germline-meno C. elegans Mutanti utilizzando RNA-Seq: Risultati di Galaxy (A) e David (B) Analisi. (A) gene differenziale analisi dell'espressione dei dati RNA-Seq a confrontole trascrittomi di GLP-1 e tCER-1, GLP-1 ha prodotto un totale di 835 geni, di cui 359 sono stati riconosciuti come up-regolati da tCER-1 / TCERG1 (UP) e 476 come down-regolato da tCER-1 / TCERG1 (DOWN). (B) I risultati dell'analisi 'funzionale Annotazione Clustering' dei geni identificati come tCER-1 / TCERG1 obiettivi con David. Percentuale arricchimento dei processi biologici sia per i up-regolati (UP) e down-regolato (giù) Classi di tCER-1 / TCERG1 obiettivi. Il grafico mostrato qui viene ottenuta riportando i gruppi di geni arricchiti (asse X) e la loro rispettiva percentuale di arricchimento (asse Y) ottenuta come uscita di analisi DAVID. Figura modificata da Amrit et al. 31 e riprodotto con permesso. Si prega di cliccare qui per vedere una versione più grande di questa figura.
Gene Ontology Analisi arricchimento
Per ottenere una panoramica delle classi di geni arricchito in obiettivi tCER-1 / TCERG1, abbiamo effettuato analisi Gene Ontology (GO) termine con David. Il tCER-1 / TCERG1-regolato UP e liste di geni GIÙ sono stati caricati in modo indipendente in David e analizzata come descritto nella sezione 3. Si sapeva poco sui geni e processi cellulari bersaglio da tCER-1 / TCERG1 precedenza 30, quindi abbiamo trovato il DAVID analisi di essere particolarmente rivelatrice e disponibile. Analisi annotazione funzionale dei geni UP rivelato cinque cluster annotazione con un punteggio di arricchimento> 1.3, la più alta tra cui citocromo P450 geni codificanti enzimi e geni di risposta xenobiotici, seguita da geni implicati nella modificazioni lipidiche. Questo è stato rafforzato dai risultati del gene analisi classificazione funzionale che hanno identificato gruppi attribuiti con molecola simileLe attività di R con significative punteggi di arricchimento. Utilizzando foglio, i gruppi identificati sono stati tracciati sulle loro rispettive colonne di arricchimento (Figura 4). I nostri dati precedenti suggerito che tCER-1 / TCERG1 ha funzionato con il fattore di longevità di trascrizione conservato, DAF-16 / FOXO3A, per promuovere la longevità di GSC-meno adulti 30. DAF-16 / FOXO3A, a sua volta, è stata implicata nella modulazione del metabolismo lipidico in recenti studi 27, 32, 33. Sulla base di questa evidenza, e l'identificazione di geni e vie lipidi metabolica come potenziali tCER-1 / TCERG1 obiettivi nel DAVID analisi, ci siamo concentrati sui geni del metabolismo dei grassi identificati nello studio RNA-Seq per gli studi meccanicistici dettagliati. Seguendo questa, e attraverso la successiva sperimentazione genetica, biochimica e funzionale molecolare, abbiamo dimostrato che tCER-1 / TCERG1 insieme DAF-16 / FOXO3A coordinatamente enhanced sia catabolico lipidico e processi anabolici in risposta alla perdita di linea germinale 31. Analogamente, annotazione funzionale Clustering del GIÙ tCER-1 / TCERG1 obiettivi individuati cluster annotazione arricchito da funzioni del citoscheletro, regolazione positiva di crescita, la riproduzione e l'invecchiamento (Figura 4). Queste osservazioni, e le nostre sostegno evidenze sperimentali suggeriscono che in caso di perdita linea germinale, tCER-1 / TCERG1 reprime anche la crescita e fisiologia riproduttiva in cellule somatiche nonché l'espressione di geni anti-longevità 31.
Campione | Sequenze totali | Lunghezza | GC% | Total Reads (Galaxy) | Mappato Letture (Galaxy) | Copertura Genome |
GLP-1 | 4000000 | 51 | 49 | 20700539 | ~ 16.000.000 | 11x |
GLP-1; tCER-1 | 4000000 | 51 | 49 | 18055444 | ~ 13.000.000 | 9x |
GLP-1 | 4000000 | 51 | 48 | 18947463 | ~ 14.000.000 | 10x |
GLP-1; tCER-1 | 4000000 | 51 | 48 | 13829643 | ~ 10.000.000 | 7x |
Tabella 1: RNA-Seq Sample Dettagli. Compilazione di attributi di dati grezzi valutato post-sequenziamento per confermare il successo della corsa di sequenziamento. Dati di sequenziamento dal esperimento rappresentativo è costituito da due condizioni biologiche, un ceppo di controllo (GLP-1 ) E un ceppo mutante (tCER-1, GLP-1) con due repliche biologiche sequenziati per ciascuno. Analisi controllo di qualità 'FastQC' mette in evidenza il numero di sequenze di leggere senza "scarsa qualità", si legge, 48 - contenuto di GC 49% e una sequenza di lettura lunghezza costante di 51bp. Modificato e riprodotto con il permesso di Amrit et al. 31.
File supplementare: la catena di comando in breve per gli strumenti di correre sul gasdotto Galaxy per l'analisi dei dati di RNA-Seq. Cliccate qui per scaricare questo file.
Significato della Sequencing Platform Galaxy in Biologia moderna
Il progetto Galaxy è diventato determinante per aiutare i biologi senza l'addestramento bioinformatica per elaborare e analizzare high-throughput di dati di sequenziamento in maniera veloce ed efficiente. Una volta considerato un compito erculeo, questa piattaforma pubblicamente disponibile ha fatto in esecuzione di algoritmi di bioinformatica complessi per analizzare i dati NGS un processo semplice, affidabile e facile. Oltre a ospitare una vasta gamma di strumenti di bioinformatica, la chiave del successo per Galaxy è anche la semplicità della sua interfaccia utente che allaccia insieme i vari aspetti di analisi di sequenziamento complesso in modo intuitivo e senza soluzione di continuità. Grazie a queste caratteristiche, la pipeline Galaxy ha acquisito uso largo tra biologi, tra cui C. elegans ricercatori. Oltre a familiarizzare l'utente con il gasdotto Analisi RNA-Seq, Galaxy aiuta anche a gettare le basi per i biologi di base per cogliere laconcetto di analisi dei dati e capire gli strumenti coinvolti. Questa conoscenza innesca l'utente di perseguire forse più piattaforme bioinformatiche più complessi come 'R' e 'Python'. Oltre Galaxy, altri strumenti e pacchetti sono disponibili in commercio e, come soluzioni open-source, che possono essere utilizzati per l'analisi di RNA-Seq. Le opzioni commerciali spesso sono pacchetti software che sono user-friendly, ma può essere costoso per i singoli ricercatori che non usano NGS spesso stand-alone. In alternativa, piattaforme open source come BioWadrobe 34 e 35 ArrayExpressHTS richiedono conoscenza della riga di comando e script in esecuzione, che pone sfide significative per non bioinformatici. Quindi, Galaxy rimane una risorsa popolare e indispensabile.
Passaggi critici all'interno del protocollo
I vantaggi sforzo di Galaxy e David nonostante, un riuscito esperimento di RNA-Seq ancorasi basa fondamentalmente su un'attenta progettazione e l'esecuzione della fase sperimentale. Ad esempio, è fondamentale per garantire omogeneità genetica prima di confrontare due ceppi da RNA-Seq, e per determinare se esistono differenze nei tassi di sviluppo. Isolare RNA da ceppi di pari età è critica pure. Analogamente, per tenere conto della variabilità dell'espressione genica all'interno dello stesso ceppo, è importante eseguire due o più 'repliche biologiche' di ciascun ceppo. Ciò significa essenzialmente coltivazione e vermi raccolta dei ceppi essendo sequenziato in esperimenti almeno twoindependent, anche se tre repliche biologiche è lo standard raccomandata. Galaxy unifica i dati da più repliche biologiche in modo che le differenze di espressione genica riportate tra ceppi non sono semplicemente una conseguenza della variabilità 'all'interno-campione'.
Una decisione di progettazione critico è circa l'uso di single-end contro abbinato-end di sequenziamento. Consequenziamento single-end, ogni frammento viene sequenziato unidirezionale in modo che il processo è più veloce, più economico e adatto per profilatura trascrizionale. In sequenziamento accoppiato-end, una volta che il frammento viene sequenza da un'estremità all'altra, una seconda fase di sequenziamento viene ripreso nella direzione opposta. Esso fornisce più dati approfonditi e informazioni aggiuntive posizionamento del genoma, quindi è più adatto per de novo assemblaggio del genoma, nuova identificazione SNP e per identificare epigenetici modifiche, delezioni, inserzioni, inversioni e. Analogamente, il numero totale di letture e l'estensione della copertura genoma richiesto per studi di espressione adeguati differenziali è dipendente dal contesto. Per i piccoli genomi, come batteri e funghi, ~ 5 milioni di letture è sufficiente, considerando che, nei vermi e mosche ~ 10 milioni di letture fornire una copertura adeguata. Per gli organismi con grandi genomi, come topi e nell'uomo, 15-25.000.000 legge è la gamma desiderata. Inoltre, per il numero di lettura e la copertura, è anche important che la maggior parte della NGS legge allineare al genoma di riferimento. Un allineamento di <70% legge è indicativo di NGS poveri o la presenza di contaminanti. Nel complesso, per C. elegans studi di RNA-Seq, tre repliche biologiche in sequenza con 50 bp sequenziamento unidirezionale traduce in ~ 10-15 milioni di letture e ~ 5-10x la copertura del genoma per ogni campione è un obiettivo ideale.
Nonostante la facilità di utilizzo di Galaxy, ci sono alcuni punti da ricordare, al fine di garantire un'esperienza di analisi dei dati liscia e senza intoppi. È necessario che l'utente abbia una conoscenza di base dello scopo e funzionamento dei vari strumenti utilizzati. Ogni strumento Galaxy richiede la selezione di parametri e comprendere lo strumento aiuterà l'utente a ottimizzare le impostazioni sulla base dei requisiti di questo esperimento. Le pagine di aiuto Galaxy spiegano tutti i parametri e si raccomanda che l'utente sfogliare questi dettagli a decidere sulle variabili di prova.
Il p lista gene ottenutoost analisi RNA-Seq è semplicemente una lista di geni finché viene estratto per dati biologicamente rilevanti con David. Questo è un esercizio fondamentale che converte i dati a base genetica individuale in risultati basati biologico-processo. Esplorare l'elenco gene RNA-Seq utilizzando le varie analisi DAVID fornisce quindi una parte integrante ed importante del protocollo.
Modifiche, risoluzione di problemi e limitazioni
Un problema comune con l'analisi dei dati NGS è compiti o test che falliscono, particolarmente nelle fasi di controllo della qualità. Tra i test che FastQC viene eseguito su un campione, pochi potevano venire come non riuscita. Tuttavia, questo non necessariamente significa che il campione non soddisfa gli standard di qualità FASTQ. Il fallimento potrebbe avere una spiegazione alternativa che dovrebbe essere esplorato con attenzione.
Ad esempio, se il test 'Per contenuto sequenza di basi' fallisce (suggerendo che v'è una differenza maggiore del 10% trabasi in qualsiasi posizione), controllare il metodo per la preparazione biblioteca oligodT. Precedenti studi hanno dimostrato che le biblioteche Illumina NGS possono avere una propensione per il 13 ° base essendo sequenziato avere una polarizzazione per determinate basi causando il campione a fallire il test. Similmente, un guasto del test 'contenuto Kmer' volte può essere attribuito al fatto che le biblioteche derivati da innesco casuale saranno quasi sempre mostra Kmer polarizzazione all'inizio a causa di un campionamento incompleta dei primer casuali. Pertanto, è importante prendere in considerazione questi e altri impedimenti in cantiere analisi prima di determinare il destino dell'esperimento.
Un'altra caratteristica importante che può influenzare l'analisi dei dati RNA-Seq è progressi rapida ed esponenziale che si verificano nei metodi NGS e software analitico. Idealmente, ci si aspetta un elenco gene identico al risultato da analisi di un campione di dati NGS su due condutture o due versioni dello stesso tubolinea. Tuttavia, mentre algoritmi sempre migliori sono abbassando aberrazioni nell'analisi RNA-Seq e producendo liste di geni di una maggiore precisione, questo spesso porta a disparità. Per esempio, l'analisi di un campione di dati NGS utilizza una versione precedente rispetto a versione più recente dello stesso set di strumenti può produrre significativamente differenti liste di geni. Una variazione modesta si aspetta, ma gli utenti devono essere consapevoli del fatto che le grandi discrepanze possono essere riflessivi di deficienze nella concezione o le prestazioni di questo esperimento.
Collettivamente, gli strumenti analitici Galaxy progetto e David hanno trasformato il modo in cui i dati NGS possono essere sfruttate per estrarre le informazioni biologicamente rilevanti. Questo ha aperto completamente nuovi livelli di indipendenza e di indagine per la comunità scientifica, tra cui C. elegans ricercatori. Ad esempio, il costo costante riduzione del sequenziamento accoppiato con una migliore e più veloce tecnologia di sequenziamento sono inaugurando un'epoca di trascrittomica a livello delle singole vermi,singoli tessuti vite senza fine e anche alcuni Selezionare le celle a vite senza fine. Questi sforzi implicano forti aumenti dei dati NGS generati. Tenere il passo con la fine analitica di questo flusso di lavoro sarà una sfida, ma grazie alla sua versatilità, Galaxy è probabile che sia strumentale che abilita la transizione da trascrittomica tutto l'organismo di RNA-Seq a livello di singola cellula in C. elegans. I progressi nella conoscenza risultanti sono suscettibili di fornire straordinarie intuizioni in biologia fondamentale.
Gli autori non hanno nulla da rivelare.
Gli autori desiderano esprimere la loro gratitudine ai laboratori, gruppi e gli individui che hanno sviluppato Galaxy e David, e quindi fatte NGS ampiamente accessibile per la comunità scientifica. L'aiuto e consulenza fornita dai colleghi presso l'Università di Pittsburgh durante il nostro allenamento bioinformatica è riconosciuto. Questo lavoro è stato supportato da un Ellison Medical Foundation di New Scholar in Aging premio (AG-NS-0879-12) e di una sovvenzione da parte del National Institutes of Health (R01AG051659) per AG.
Name | Company | Catalog Number | Comments |
RNase spray | Fisher Scientific | 21-402-178 | |
Trizol | Ambion | 15596026 | |
Sonicator | Sonics Vibra Cell | VCX130 | |
Centrifuge | Eppendorf | 5415C | |
chloroform | Sigma Aldrich | 288306 | |
2-propanol | Fisher Scientific | A416P-4 | |
Ethanol | Decon Labs | 2705HC | |
RNase-free water | Fisher Scientific | BP561-1 | |
Bioanalyzer | Agilent | G2940CA | |
Mac/PC |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Tutti i diritti riservati
Utilizziamo i cookies per migliorare la tua esperienza sul nostro sito web.
Continuando a utilizzare il nostro sito web o cliccando “Continua”, accetti l'utilizzo dei cookies.