Method Article
Lo scopo di questo protocollo è quello di indagare l'evoluzione e l'espressione dei geni candidati utilizzando i dati di sequenziamento dell'RNA.
Distillare e segnalare set di dati di grandi dimensioni, come i dati sull'intero genoma o sul trascrittame, è spesso un compito scoraggiante. Un modo per abbattere i risultati è concentrarsi su una o più famiglie geniche che sono significative per l'organismo e lo studio. In questo protocollo, delineamo i passaggi bioinformatici per generare una filogenesi e quantificare l'espressione dei geni di interesse. Gli alberi filogenetici possono dare un'idea di come i geni si stanno evolvendo all'interno e tra le specie e rivelare l'ortografia. Questi risultati possono essere migliorati utilizzando i dati RNA-seq per confrontare l'espressione di questi geni in diversi individui o tessuti. Studi sull'evoluzione molecolare e sull'espressione possono rivelare modi di evoluzione e conservazione della funzione genica tra le specie. La caratterizzazione di una famiglia genica può servire come trampolino di lancio per studi futuri e può evidenziare un'importante famiglia genica in un nuovo genoma o carta del trascrittame.
I progressi nelle tecnologie di sequenziamento hanno facilitato il sequenziamento di genomi e trascrittimi di organismi non modello. Oltre alla maggiore fattibilità del sequenziamento di DNA e RNA da molti organismi, è disponibile al pubblico un'abbondanza di dati per studiare i geni di interesse. Lo scopo di questo protocollo è quello di fornire misure bioinformatiche per indagare l'evoluzione molecolare e l'espressione di geni che possono svolgere un ruolo importante nell'organismo di interesse.
Studiare l'evoluzione di un gene o di una famiglia genica può fornire informazioni sull'evoluzione dei sistemi biologici. I membri di una famiglia genica sono tipicamente determinati identificando motivi conservati o sequenze geniche omologhe. L'evoluzione della famiglia genica è stata precedentemente studiata utilizzando genomi di organismi modellolontanamente correlati 1. Una limitazione a questo approccio è che non è chiaro come queste famiglie geniche si evolvano in specie strettamente correlate e il ruolo delle diverse pressioni selettive ambientali. In questo protocollo, includiamo la ricerca di omologhi in specie strettamente correlate. Generando una filogenesi a livello di phylum, possiamo notare tendenze nell'evoluzione della famiglia genica come quella dei geni conservati o duplicazioni specifiche del lignaggio. A questo livello, possiamo anche indagare se i geni sono ortologi o paralogi. Mentre molti omologhi probabilmente funzionano in modo simile l'uno all'altro, questo non è necessariamente ilcaso 2. Incorporare alberi filogenetici in questi studi è importante per risolvere se questi geni omologhi sono ortologi o meno. Negli eucarioti, molti ortologi mantengono funzioni simili all'interno della cellula come evidenziato dalla capacità delle proteine dei mammiferi di ripristinare la funzione degli ortologi di lievito3. Tuttavia, ci sono casi in cui un gene non ortologo svolge una funzione caratterizzata4.
Gli alberi filogenetici iniziano a delineare le relazioni tra geni e specie, ma la funzione non può essere assegnata esclusivamente in base alle relazioni genetiche. Gli studi sull'espressione genica combinati con le annotazioni funzionali e l'analisi dell'arricchimento forniscono un forte supporto per la funzione genica. I casi in cui l'espressione genica può essere quantificata e confrontata tra individui o tipi di tessuto può essere più eloquente della funzione potenziale. Il seguente protocollo segue i metodi utilizzati per studiare i geni opsina in Hydra vulgaris7, ma possono essere applicati a qualsiasi specie e famiglia genica. I risultati di tali studi forniscono una base per ulteriori indagini sulla funzione genica e sulle reti geniche negli organismi non modello. Ad esempio, l'indagine sulla filogenesi delle opsine, che sono proteine che avviano la cascata di fototrasduzione, dà contesto all'evoluzione degli occhi e al rilevamento dellaluce 8,9,10,11. In questo caso, organismi non modello, in particolare specie animali basali come cnidari o ctenofori, possono chiarire la conservazione o i cambiamenti nella cascata di fototraduzione e nella visione attraverso i cladi12,13,14. Allo stesso modo, determinare la filogenesi, l'espressione e le reti di altre famiglie geniche ci informerà sui meccanismi molecolari alla base degli adattamenti.
Questo protocollo segue le linee guida per la cura degli animali uc irvine.
1. Preparazione della libreria RNA-seq
2. Accedere a un cluster di computer
NOTA: l'analisi RNA-seq richiede la manipolazione di file di grandi dimensioni ed è meglio eseguita su un cluster di computer (Table of Materials).
3. Ottenere letture RNA-seq
4. Tagliare adattatori e letture di bassa qualità (opzionale)
5. Ottenere l'assieme di riferimento
6. Generare un assieme de novo (alternativo al passaggio 5)
7. La mappa legge sul genoma (7.1) o sul trascrittame de novo (7.2)
8. Identificare i geni di interesse
NOTA: I seguenti passaggi possono essere eseguiti con file FASTA nucleotidici o proteici, ma funzionano meglio e sono più semplici con sequenze proteiche. Blast cerca utilizzando proteine e proteine è più probabile che dia risultati durante la ricerca tra diverse specie.
9. Alberi filogenetici
10. Visualizzare l'espressione genica usando TPM
I metodi di cui sopra sono riassunti nella figura 1 e sono stati applicati a un insieme di dati di tessuti Hydra vulgaris. H. vulgaris è un invertebrato di acqua dolce che appartiene al phylum Cnidaria che comprende anche coralli, meduse e anemoni di mare. H. vulgaris può riprodursi asessualmente germogliando e possono rigenerare la testa e il piede quando vengono bisessuali. In questo studio, abbiamo mirato a indagare l'evoluzione e l'espressione dei geni opsina in Hydra7. Mentre Hydra manca di occhi, mostrano un comportamento dipendente dallaluce 32. I geni Opsin codificano proteine importanti nella visione per rilevare diverse lunghezze d'onda della luce e iniziare la cascata di fototrasduzione. Studiare l'evoluzione molecolare e l'espressione di questa famiglia genica in una specie basale può fornire informazioni sull'evoluzione degli occhi e sul rilevamento della luce negli animali.
Abbiamo generato un assemblaggio guidato utilizzando il genoma di riferimento Hydra2.0 33 e i dati RNA-seq disponibili al pubblico (GEO accession GSE127279) Figura 1. Questo passaggio ha richiesto circa 3 giorni. Anche se non abbiamo generato un transcriptome de novo in questo caso, un assembly Trinity può richiedere fino a 1 settimana per essere generato e ogni libreria può richiedere alcune ore per la mappatura di lettura a seconda del mappatore. L'assembly Hydra unito (~50.000 trascrizioni) è stato annotato utilizzando Blast2GO che ha richiesto circa 1 settimana Figura 1. Sequenze per geni correlati all'opsina sono state estratte in un file fasta. Sequenze per geni opsin di altre specie sono state estratte anche da NCBI GenBank. Abbiamo usato opsine di cnidari Podocoryna carnea, Cladonema radiatum, Tripedelia cystophorae Nematostella vectensis,e abbiamo anche incluso gruppi fuori gruppo Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster e Homo sapiens. I geni opsin sono stati allineati nella FIGURA 2 delMEGA7 . Osservando l'allineamento, siamo stati in grado di identificare le opsine hydra che mancavano di un amminoacido di lisina conservato necessario per legare una molecola sensibile alla luce. Dopo l'ispezione visiva, abbiamo determinato il modello migliore eseguendo un'analisi di selezione del modello. È stato generato un albero con massima verosimiglianza utilizzando il modello LG + G + F con valore bootstrap pari a 100 Figura 3. Per 149 geni opsina, l'albero è stato terminato in circa 3 giorni. La filogenesi suggerisce che i geni opsin si stanno evolvendo per duplicazioni specifiche del lignaggio nei cnidari e potenzialmente per duplicazione tandem in H. vulgaris7.
Abbiamo eseguito un'analisi dell'espressione differenziale in edgeR e abbiamo esaminato l'espressione assoluta dei geni opsina. Abbiamo ipotizzato che una o più opsine sarebbero state upregolate nella testa (ipostoma) ed eseguito confronti a coppie di ipostoma rispetto alla colonna corporea, alla zona in erba, al piede e ai tentacoli. Come esempio di confronto a coppie, 1.774 trascrizioni sono state espresse in modo differenziato tra l'ipostoma e la colonna corporea. Abbiamo determinato i geni che sono stati upregolamentati attraverso confronti multipli e abbiamo fatto un arricchimento funzionale nella tabella 1 diBlast2GO . Il raggruppamento dell'attività del recettore accoppiato con la proteina G includeva geni opsina. Infine, abbiamo esaminato l'espressione assoluta dei geni opsina nei diversi tessuti, durante lo germogliamento e durante la rigenerazione tracciando i loro valori di TPM usando la figura ggplot 4. Usando i metodi qui descritti, abbiamo identificato 2 geni opsina che non si raggruppavano con le altre opsine nella filogenesi, abbiamo trovato un'opsina che è stata espressa quasi 200 volte di più di altre, e abbiamo trovato alcuni geni opsin co-espressi con geni di fototrasduzione che possono essere utilizzati per il rilevamento della luce.
Figura 1: Schema del flusso di lavoro. I programmi utilizzati per analizzare i dati sul cluster di computer sono in blu, in magenta sono quelli che abbiamo usato su un computer locale e in arancione è un programma basato sul web. (1) Tagliare le letture dell'RNA-seq utilizzando trimmomatico v. 0.35. Se un genoma è disponibile ma mancano modelli genetici, generare un assieme guidato utilizzando STAR v. 2.6.0c e StringTie v. 1.3.4d. (Facoltativo vedi Materiali supplementari) (2) Senza genoma di riferimento, utilizzare letture tagliate per effettuare un assemblaggio de novo utilizzando Trinity v 2.8.5. (3) Per quantificare l'espressione genica utilizzando un genoma di riferimento, la mappa legge usando STAR e quantifica utilizzando RSEM v. 1.3.1. Estrarre i TPM utilizzando RSEM e visualizzarli in RStudio. (4) Bowtie e RSEM possono essere utilizzati per mappare e quantificare le letture mappate a un trascrittoma della trinità. Uno script Trinity può essere utilizzato per generare una matrice TPM per visualizzare i conteggi in RStudio. (5) Utilizzare NCBI BLAST basato sul web e blast+ della riga di comando per cercare sequenze omologhe e confermare l'utilizzo di BLAST reciproco. Annotare ulteriormente i geni usando Blast2GO. Usa MEGA per allineare i geni e generare un albero filogenetico utilizzando il modello più adatto. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 2: Esempio di geni allineati. L'istantanea mostra una porzione di geni dell'idra opsina allineati usando MUSCLE. La freccia indica la posizione di una llysina conservata legatura retinica. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 3: Albero filogenetico dell'opsina cnidaria. Albero ad alta probabilità generato in MEGA7 utilizzando sequenze di opsina da Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster e Homo sapiens. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 4: Espressione dei geni Opsin in Hydra vulgaris. (A) Espressione nelle trascrizioni per milione (TPM) dei geni Hydra vulgaris opsin nella colonna corporea, nella zona in erba, nel piede, nell'ipotoma e nei tentacoli. (B) Espressione di geni opsina durante diverse fasi di germogliatura dell'Idra. (C) Espressione dei geni opsina dell'ipostoma dell'Idra durante diversi punti di rigenerazione del tempo. Clicca qui per visualizzare una versione più grande di questa figura.
GO ID | Nome GO | Categoria GO | Fdr |
VAI:0004930 | Attività del recettore accoppiato con proteina G | FUNZIONE MOLECOLARE | 0.0000000000704 |
VAI:0007186 | Via di segnalazione del recettore accoppiato della proteina G | PROCESSO BIOLOGICO | 0.00000000103 |
VAI:0016055 | Percorso di segnalazione Wnt | PROCESSO BIOLOGICO | 0.0000358 |
VAI:0051260 | omooligomerizzazione proteica | PROCESSO BIOLOGICO | 0.000376 |
VAI:0004222 | metalloendopeptidasi | FUNZIONE MOLECOLARE | 0.000467 |
GO:0008076 | complesso di canali di potassio gated di tensione | COMPONENTE CELLULARE | 0.000642 |
VAI:0005249 | tensione gated attività del canale del potassio | FUNZIONE MOLECOLARE | 0.00213495 |
VAI:0007275 | sviluppo di organismi multicellulari | PROCESSO BIOLOGICO | 0.00565048 |
VAI:0006813 | trasporto ioni di potassio | PROCESSO BIOLOGICO | 0.01228182 |
VAI:0018108 | fosforilazione peptidil-tirosina | PROCESSO BIOLOGICO | 0.02679662 |
Tabella 1: Arricchimento funzionale dei geni upregolati nell'ipostoma
Materiali supplementari. Clicca qui per scaricare questi materiali.
Lo scopo di questo protocollo è quello di fornire una descrizione dei passaggi per caratterizzare una famiglia genica utilizzando i dati RNA-seq. Questi metodi hanno dimostrato di funzionare per una varietà di specie e set di dati4,34,35. Il gasdotto qui stabilito è stato semplificato e dovrebbe essere abbastanza facile da essere seguito da un principiante della bioinformatica. Il significato del protocollo è che delinea tutti i passaggi e i programmi necessari per completare un'analisi pubblicabile. Un passo cruciale nel protocollo è avere trascrizioni a figura intera correttamente assemblate, questo proviene da genomi o trascritti di alta qualità. Per ottenere trascrizioni corrette, è necessario RNA e/o DNA di alta qualità e buone annotazioni discusse di seguito.
Per la preparazione della libreria RNA-seq, includiamo kit di elenco che hanno funzionato per piccole parti del corpo di Hydra19 e farfalle 18 (Tavolo dei materiali). Notiamo che per l'RNA a basso input abbiamo utilizzato un approccio al protocollomodificato 36. I metodi per l'estrazione dell'RNA sono stati confrontati in più tipi di campioni tra cuicellule di lievito 17,neuroblastoma37,piante 38e larve diinsetti 16 per citarne alcuni. Si consiglia al lettore di acquisire un protocollo che funzioni per le proprie specie di interesse, se presenti, o di risolvere i problemi utilizzando kit comunemente disponibili in commercio per iniziare. Per una corretta quantificazione genica, si consiglia di trattare il campione di RNA con la DNasi. La presenza di DNA influenzerà una corretta quantificazione genica. Si consiglia inoltre di utilizzare un kit di preparazione della libreria cDNA che include una selezione di code in poliA da selezionare per l'mRNA maturo. Mentre l'esaurimento dell'rRNA si traduce in una maggiore profondità di lettura, la percentuale di copertura dell'esone è molto inferiore alla copertura esonero dell'RNA utilizzando la selezione polyA +39. Infine, quando possibile è meglio utilizzare l'estremità accoppiata e spiaggiata40,41. Nel protocollo sopra i comandi di mapping di lettura dovranno essere modificati quando si utilizzano letture a singola estremità.
Come accennato in precedenza, è importante essere in grado di identificare i geni di interesse e anche di distinguere tra recenti duplicazioni geniche, giunzione alternativa e aplotipi nel sequenziamento. In alcuni casi, avere un genoma di riferimento può aiutare determinando dove si trovano geni ed esoni l'uno rispetto all'altro. Una cosa da notare è che se un trascritoma è ottenuto da un database pubblico e non è di alta qualità, potrebbe essere meglio generare usando Trinity42 e combinando librerie RNA-seq da tessuti di interesse. Allo stesso modo, se un genoma di riferimento non ha buoni modelli genetici, le librerie RNA-seq possono essere utilizzate per generare nuove GTF utilizzando StringTie43 (vedi Materiali supplementari). Inoltre, nei casi in cui i geni sono incompleti e c'è accesso a un genoma, i geni possono essere modificati manualmente usando sequenze omologhe quindi allineate al genoma usando tblastn. L'uscita BLAST può essere utilizzata per determinare la sequenza effettiva, che può essere diversa dalla correzione eseguita utilizzando gli omologhi. Se non c'è corrispondenza, lasciare la sequenza come era originariamente. Quando si controlla l'output prestare attenzione alle coordinate del genoma per assicurarsi che l'esone mancante sia effettivamente parte del gene.
Sebbene ci concentriamo su software e programmi che abbiamo usato, esistono modifiche a questo protocollo a causa di molti programmi disponibili che potrebbero funzionare meglio per diversi set di dati. Ad esempio, mostriamo i comandi per la mappatura delle letture al transcriptome usando bowtie e RSEM, ma Trinity ora ha la possibilità di allineare molto più velocemente come kallisto44 e salmon45. Allo stesso modo, descriviamo le annotazioni usando Blast2GO (ora OmicsBox) ma ci sono altri strumenti di mapper che possono essere trovati gratuitamente e online. Alcuni che abbiamo provato includono: GO FEAT46, eggNOG-mapper47,48e un allineatore molto veloce PANNZER249. Per utilizzare questi strumenti di annotazione basati sul Web è sufficiente caricare il peptide FASTA e inviarlo. Versioni autonome di PANNZER e eggNOG-mapper sono disponibili anche per il download nel cluster di computer. Un'altra modifica è che abbiamo usato MEGA e R su un computer locale e utilizzato lo strumento NCBI BLAST online per fare BLAST reciproci, tuttavia tutti questi programmi possono essere utilizzati sul cluster di computer scaricando i programmi e i database necessari. Allo stesso modo, gli allineatori kallisto e salmone possono essere utilizzati su un computer locale purché un utente abbia abbastanza RAM e spazio di archiviazione. Tuttavia, i file FASTQ e FASTA tendono ad essere molto grandi e si consiglia vivamente di utilizzare un cluster di computer per facilità e velocità. Inoltre, mentre forniamo istruzioni e link per scaricare programmi dai loro sviluppatori, molti di loro possono essere installati da bioconda: https://anaconda.org/bioconda.
Un problema comune affrontato quando si esvolvano analisi bioinformatiche è il fallimento degli script shell. Ciò può essere dovuto a una serie di motivi. Se viene creato un file di errore, questo file di errore deve essere controllato prima della risoluzione dei problemi. Alcuni motivi comuni di un errore sono errori di battitura, parametri chiave mancanti e problemi di compatibilità tra le versioni del software. In questo protocollo, includiamo parametri per i dati, ma i manuali software possono fornire linee guida più dettagliate per i singoli parametri. In generale, è meglio utilizzare le versioni più aggiornate del software e consultare il manuale corrispondente a quella versione.
I miglioramenti apportati a questo protocollo includono l'analisi dell'espressione differenziale a livello di trascrittame e l'analisi dell'arricchimento funzionale. Si consiglia edgeR50 per l'analisi dell'espressione differenziale un pacchetto disponibile in Bioconductor. Per l'analisi dell'arricchimento funzionale, abbiamo utilizzato Blast2GO29 e DAVID51,52 basato sulweb. Si consiglia inoltre di modificare ulteriormente la filogenesi estraerla come file newick e utilizzando iTOL53basato sul Web. Inoltre, mentre questo protocollo studierà l'evoluzione molecolare e i modelli di espressione dei geni, ulteriori esperimenti possono essere utilizzati per convalidare le posizioni e le funzioni geniche o proteiche. L'espressione mRNA può essere confermata dall'ibridazione RT-qPCR o in situ. Le proteine possono essere localizzate usando l'immunoistochimica. A seconda della specie, gli esperimenti ad eliminazione diretta possono essere usati per confermare la funzione genica. Questo protocollo può essere utilizzato per una varietà di obiettivi tra cui, come mostrato sopra, esplorare una famiglia genica tipicamente associata alla fotorecezione in una specie basale7. Un'altra applicazione di questi metodi è l'identificazione dei cambiamenti in un percorso conservato sotto diverse pressioni selettive. Ad esempio, questi metodi sono stati utilizzati per scoprire variazioni nell'espressione dei canali potenziali del recettore transitorio della vista tra farfalle diurne e falene notturne34.
Gli autori non hanno nulla da rivelare.
Ringraziamo Adriana Briscoe, Gil Smith, Rabi Murad e Aline G. Rangel per i consigli e le indicazioni nell'incorporare alcuni di questi passaggi nel nostro flusso di lavoro. Siamo anche grati a Katherine Williams, Elisabeth Rebboah e Natasha Picciani per i commenti sul manoscritto. Questo lavoro è stato sostenuto in parte da una borsa di studio della George E. Hewitt Foundation for Medical research presso A.M.M.
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon