Method Article
* Questi autori hanno contribuito in egual misura
È descritto un metodo per costruire un albero filogenetico basato su omologia di sequenza di dolci da eucarioti e SemiSWEETs da procarioti. L'analisi filogenetica è uno strumento utile per spiegare la parentela evolutiva tra proteine omologhe o geni da gruppi di organismi diversi.
L'analisi filogenetica utilizza del nucleotide o sequenze aminoacidiche o altri parametri, quali sequenze di dominio e struttura tridimensionale, per costruire un albero per mostrare le relazioni evolutive tra diversi taxa (unità di classificazione) presso il molecolare livello. L'analisi filogenetica può essere utilizzata anche per indagare le relazioni di dominio nell'ambito di un singolo taxon, particolarmente per organismi che hanno subito un sostanziale cambiamento nella morfologia e fisiologia, ma per cui i ricercatori mancano prove fossili a causa della degli organismi lunga storia evolutiva o scarsità di fossilizzazione.
In questo testo, un protocollo dettagliato è descritto con il metodo filogenetico, compreso l'allineamento di sequenza dell'amminoacido usando la costruzione albero filogenetico successive utilizzando entrambi probabilità massima (ML) di genetica molecolare evolutiva e Clustal Omega Analisi (MEGA) e inferenza bayesiana tramite MrBayes. Per indagare l'origine di geni eucariotici Zuccheri sarà alla fine essere esportati i trasportatori (dolce), 228 dolci tra cui 35 dolce da eucarioti unicellulari e semidolce 57 proteine da procarioti sono stati analizzati. Interessante, SemiSWEETs sono stati trovati nei procarioti, ma dolci sono stati trovati negli eucarioti. Due alberi filogenetici costruiti utilizzando metodi teoricamente distinti costantemente hanno suggerito che il primo gene eucariotico dolce potrebbe derivano dalla fusione di un gene batterico semidolce e un gene semidolce degli Archaea. Vale la pena notare che uno dovrebbe essere prudente per trarre una conclusione basata esclusivamente sull'analisi filogenetica, anche se è utile spiegare il rapporto sottostante tra taxa diversi, che è difficile o addirittura impossibile discernere attraverso mezzi sperimentali .
Sequenze di DNA o RNA trasportano informazioni genetiche per i fenotipi sottostanti che può essere analizzato attraverso metodi fisiologici e biochimici o osservato attraverso prove morfologiche e fossili. In un certo senso, è più affidabile di valutazione esterni fenotipi perché il primo è la base per quest'ultima informazione genetica. In studio evolutivo, prova fossile è molto diretta e convincente. Tuttavia, molti organismi, quali microrganismi, hanno poche possibilità di formare un fossile durante Età geologiche lungo. Pertanto, informazioni molecolari quali sequenze nucleotidiche e sequenze dell'amminoacido da organismi esistenti correlati sono di valore per esplorare relazioni evolutive1. Nello studio presente, è stata fornita una semplice introduzione di conoscenza di base filogenetica protocollo facile da imparare per i nuovi arrivati che hanno bisogno di costruire un albero filogenetico in proprio.
Sia DNA (nucleotidi) e sequenze di proteine (aminoacidi) possono essere utilizzati per dedurre le relazioni filogenetiche tra geni omologhi, organelli o anche organismi2. Sequenze di DNA sono maggiori probabile di essere colpiti dai cambiamenti nel corso dell'evoluzione. Al contrario, sequenze dell'amminoacido sono molto più stabili, dato che sinonima mutazioni nelle sequenze nucleotidiche non causano mutazioni nelle sequenze dell'amminoacido. Di conseguenza, sequenze di DNA sono utili per il confronto di geni omologhi da organismi strettamente correlati, mentre sequenze dell'amminoacido sono appropriati per geni omologhi da organismi lontanamente correlati3.
Un'analisi filogenetica inizia con l'allineamento dell'amminoacido o nucleotide sequenze4 Estratto da un genoma con annotazioni sequenziamento database5 elencati in formato FASTA, vale a dire, proteina espressa o presunta sequenze, sequenze di RNA , o sequenze di DNA. Vale la pena notare che è fondamentale per raccogliere sequenze di alta qualità per l'analisi, e sequenze omologhe solo possono essere utilizzati per analizzare le relazioni filogenetiche. Molte piattaforme diverse come Clustal W, Clustal X, muscolo, T-caffè, MAFFT, può essere utilizzato per l'allineamento di sequenza. Il più ampiamente usato è Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), che può essere utilizzato online o può essere scaricato gratuitamente gratuitamente. Lo strumento di allineamento ha molti parametri che l'utente può regolare prima di iniziare l'allineamento, ma i parametri di default funzionano bene nella maggior parte dei casi. Dopo il processo è completo, le sequenze allineate devono essere salvate nel formato corretto per il passaggio successivo. Essi devono quindi essere modificati o tagliati utilizzando un software di editing, come ad esempio BioEdit, perché la costruzione di alberi filogenetici da MEGA richiede le sequenze per essere di uguale lunghezza (inclusi sia dell'amminoacido abbreviazioni e trattini. Nella sequenza allineata, qualsiasi posizione senza un amminoacido o nucleotide è rappresentato da un trattino "-"). In generale, tutte le sporgenti aminoacidi o nucleotidi alle due estremità dell'allineamento dovrebbe essere rimosso. Inoltre, le colonne che contengono le sequenze scarsamente allineate nell'allineamento possono essere eliminate perché trasmettere poche preziose informazioni e a volte può dare confusione o false informazioni3. Le colonne contenenti uno o più trattini possono essere eliminate in questo momento o nella successiva fase di costruzione di albero. In alternativa, sono utilizzabili per il calcolo filogenetica. Al termine della sequenza di allineamento e di rifilatura, le sequenze allineate devono essere salvate in formato FASTA, o il formato desiderato, per un uso successivo.
Molte piattaforme di software forniscono funzioni di costruzione albero utilizzando diversi metodi o algoritmi. In generale, i metodi possono essere classificati come metodi di matrice di distanza o metodi di dati discreti. Metodi di matrice di distanza sono semplici e veloci per calcolare, mentre i metodi di dati discreti sono complicati e che richiede tempo. Per taxa strettamente correlate con un alto grado di condivisione dell'identità di sequenza dell'amminoacido o nucleotide, un metodo di matrice di distanza (Neighbor unendo: NJ; Metodo di gruppo coppia non ponderata con media aritmetica: UPGMA) è appropriato; lontanamente correlate taxa, un metodo di dati discreti (metodo della massima verosimiglianza: ML; Massima parsimonia: MP; Inferenza bayesiana) è ottimale3,8. In questo studio, i metodi di ML in MEGA (6.0.6) e inferenza bayesiana (MrBayes 3.2) sono stati applicati per costruire alberi filogenetici9. Idealmente, quando vengono utilizzati i parametri e il modello adeguato, i risultati derivati da diversi metodi possono essere coerenti, e sono dunque più affidabile e convincente.
Per un albero filogenetico di ML costruito utilizzando MEGA10, il file di sequenza allineata in formato FASTA deve essere caricato nel programma. Il primo passo è quindi di selezionare il modello di sostituzione ottimale per i dati caricati. Tutti i modelli di sostituzione disponibili vengono confrontati in base sulle sequenze caricate, e loro punteggi finali verranno mostrati in una tabella di risultati. Selezionare il modello con il Punteggio di criterio BIC (Bayesian Information) più piccolo (elencato per primo nella tabella), impostare i parametri di ML secondo il modello raccomandato e avviare il calcolo. Il tempo di calcolo varia da alcuni minuti a diversi giorni, a seconda della complessità dei dati caricati (lunghezza delle sequenze e numero di taxa) e le prestazioni del computer su cui vengono eseguiti i programmi. Quando il calcolo è finito, un albero filogenetico appare in una nuova finestra. Salvare il file come "FileName.mat". Dopo aver impostato i parametri per specificare l'aspetto dell'albero, salvare ancora una volta. Utilizzando questo metodo, MEGA è in grado di generare figure di pubblicazione grado albero filogenetico.
Per la costruzione di albero con MrBayes11, il primo passo è quello di trasformare la sequenza allineata, che di solito è elencata in formato FASTA, in formato nexus (NEX come tipo di file). Trasformazione di file FASTA in nexus formato possono essere elaborati in MEGA. Successivamente, la sequenza allineata nel nexus formato possa essere caricata in MrBayes. Quando il file viene caricato correttamente, è necessario specificare i parametri dettagliati per il calcolo dell'albero. Questi parametri includono dettagli come modello di sostituzione dell'amminoacido, tassi di variazione, numero catena-catena di Markov Monte Carlo (MCMC) accoppiamento, numero ngen, media deviazione standard delle frequenze di Spalato e così via. Dopo questi parametri sono stati specificati, è possibile avviare il calcolo. Alla fine, due figure di albero in ASC II codice, un visualizzando clade credibilità e le altre lunghezze del ramo visualizzando, verrà visualizzato sullo schermo.
Il risultato di albero verrà salvato automaticamente come "FileName.nex.con". Questo file di albero può essere aperto e modificato da FigTree, e la cifra in FigTree può essere modificata ulteriormente per renderlo più adatto per la pubblicazione.
In questo studio, 228 proteine dolci, tra cui 35 dolci da eucarioti unicellulari e 57 SemiSWEETs da procarioti, sono stati analizzati come un esempio. I dolci e il SemiSWEETs sono stati caratterizzati come glucosio, fruttosio o saccarosio trasportatori attraverso membrane12,13. L'analisi filogenetica suggerisce che i due domini MtN3/saliva contenente dolci potrebbero essere derivati da una fusione evolutiva di un passato batterica e di un archaeon14.
1. sequenza di allineamento
2. calcolo dell'albero filogenetico
3. presentazione dell'albero filogenetico
Nota: Un albero filogenetico di ML sarà presentato quando è finito il calcolo utilizzando MEGA (Figura 10).
4. analisi del rapporto tra dolci e SemiSWEETs utilizzando l'allineamento di sequenza
Nota: Questo passaggio potrebbe non essere necessaria in analisi di sequenza ordinaria.
5. phylogenetic Tree costruzione con MrBayes
Alberi filogenetici mostrano che tutti i domini di MtN3/saliva primi delle sequenze dolce 35 cluster come un clade e i domini di MtN3/saliva secondo delle sequenze dolce cluster come un altro clade. Inoltre, risultati di allineamento delle dolci e SemiSWEETs mostrano che alcuni SemiSWEETs da α-Proteobacteria allineato con il primo dominio di MtN3/saliva delle sequenze dolce, considerando che SemiSWEETs da Metanobatteri (archaea) allineato con la seconda MtN3/saliva dominio delle sequenze di dolce. Insieme, questi risultati suggeriscono che i due domini MtN3/saliva contenente dolci potrebbero essere derivati da una fusione evolutiva di un passato batterica e di un archaeon14.
Figura 1 : Salvare le sequenze allineate dei 35 dolci eucariotiche putativi come "35.clustal" tramite Clustal Omega. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 2 : Seleziona il percorso in BioEdit per tagliare le sequenze allineate di "35.clustal", che è stato preparato in Clustal Omega. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 3 : Selezionare ed eliminare le sequenze irregolari sul lato sinistro delle sequenze di dominio MtN3/saliva prime dei 35 dolci eucariotiche putativi in BioEdit. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 4 : Le sequenze tagliate del primo dominio MtN3/saliva dei 35 dolci eucariotici putativi in BioEdit. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 5 : Selezionare e copiare le prime sequenze di dominio MtN3/saliva dei 35 dolci eucariotiche putativi in MEGA. Le sequenze copiate verranno incollate in un file doc per l'editing. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 6 : Convertire "35 realigned.fas" in "35.nex" (formato microscopio) per inferenza bayesiana ulterioramente. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 7 : Ricerca per il modello di sostituzione più appropriato da MEGA per la costruzione di alberi filogenetici di probabilità massima (ML) basato sul file "35 realigned.fas". Clicca qui per visualizzare una versione più grande di questa figura.
Figura 8 : Una tabella del modello più appropriato di sostituzione calcolati per ML albero basato sul file "35 realigned.fas". Clicca qui per visualizzare una versione più grande di questa figura.
Figura 9 : Specificare i parametri per il calcolo di albero ML sulla base del modello di sostituzione più adatto per "35 realigned.fas" in MEGA. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 10 : Un albero di ML originale costruito da MEGA basato su "35 realigned.fas". In questa fase, molte opzioni per figura stile, dimensione, colore, ecc., sono disponibile. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 11 : Allineamento di 228 dolci eucariotici e procariotici 57 SemiSWEETs da Clustal Omega. I risultati sono stati mostrati in Jalview, integrato in Clustal Omega. Nell'allineamento, alcuni SemiSWEETs da α-Proteobacteria sono stati allineati con il primo dominio di MtN3/saliva delle sequenze di dolce, mentre SemiSWEETs da Metanobatteri (archaea) sono stati allineati con il secondo dominio MtN3/saliva delle sequenze di dolce. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 12 : Caricare il file "35.nex" in MrBayes nella finestra DOS. Al fine di mostrare i risultati complessivi, contenuto che era simile è stato eliminato per ridurre la lunghezza di figura. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 13 : Informazioni visualizzate sullo schermo dopo il calcolo del file "35.nex" utilizzando MrBayes. Per visualizzare i risultati complessivi, contenuto che era simile è stato eliminato per ridurre la lunghezza di figura. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 14 : Riassunti esempi di parametri di modello per il file "35.nex". Clicca qui per visualizzare una versione più grande di questa figura. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 15 : Riassunti esempi di struttura ad albero del file "35.nex". Per visualizzare i risultati complessivi, contenuto che era simile è stato eliminato per ridurre la lunghezza di figura. Clicca qui per visualizzare una versione più grande di questa figura.
Figura 16 : L'albero filogenetico di "35.nex.con" visualizzato da FigTree. Clicca qui per visualizzare una versione più grande di questa figura.
Sta diventando sempre più popolare nella ricerca biologica per fare un albero filogenetico basato su nucleotide o dell'amminoacido sequenze8. In generale, ci sono tre fasi critiche della pratica compreso l'allineamento di sequenza, valutazione delle sequenze allineate con l'algoritmo o il metodo corretto e la visualizzazione del risultato computazionale come un albero filogenetico. Nello studio presentato, sono state condotte tre turni di allineamento di sequenza: in primo luogo, le sequenze di proteine dolci, tra cui il dominio di MtN3/saliva di primo e secondo, sono stati state allineate; in secondo luogo, ciascuna delle singole sequenze di dominio MtN3/saliva dei dolci come un taxon indipendenti sono stati riuniti e allineati insieme; e infine, sequenze di semidolce e dolce congiuntamente sono stati stati allineati. Solo un giro di allineamento di sequenza è solitamente necessario per la costruzione dell'albero filogenetico.
Nella fase preliminare, sequenze omologhe possono essere scaricati da NCBI o altri database. Queste sequenze scaricate potrebbero essere necessario essere proiettato se non vengono ben annotati. In fase di prima e seconda, non può essere avviati se il formato di sequenza è corretto allineamento e calcolo. Ad esempio, Clustal Omega rifiuterà qualsiasi partenza dal formato FASTA nel file sequenza. In fase di calcolo, si noti che le lunghezze di sequenza compresi sia gli aminoacidi o nucleotidi e trattini sono tenute a corrispondere prima di essere valutato da MEGA.
Nonostante la ricchezza di metodi e modelli per la costruzione di albero che sono disponibili, nessuno di loro è infallibile. Robusti e convincenti risultati sono quelli che sono coerenti con l'altro quando diversi algoritmi o modelli vengono utilizzati per valutare i dati stesso15. Nel metodo ML, l'affidabilità della topologia albero dipende in larga misura il valore di bootstrap di ogni clade; un valore di bootstrap di 70 o maggiore è considerare generalmente come affidabile. Nello studio presente, tutte le sequenze di dominio MtN3/saliva prime di cluster come un ampio clade con un valore di bootstrap di 83. Il valore di altri clade contenente tutte le seconda sequenze dominio di MtN3/saliva, tuttavia, era solo 6 (Figura 10). Per verificare l'architettura di albero, MrBayes, che impiega un metodo completamente diverso16 di ML, è stato utilizzato per analizzare la relazione dei taxa. La probabilità a posteriori16 dei cladi di dominio prima e la seconda ottenuta da MrBayes erano 100 e 68, rispettivamente (Figura 16).
Un'altra limitazione di ML ed il calcolo di MrBayes è che entrambi sono che richiede tempo per l'esecuzione. Utilizzando un computer con processori multi-core e unità di elaborazione grafica (GPU) è utile per migliorare le prestazioni computazionali e velocità17,18. Per il funzionamento del MrBayes, un computer con una scheda grafica discreta e i driver CUDA appropriati può accelerare notevolmente i calcoli di probabilità11.
Scegliere il modello corretto per calcolo albero filogenetico è difficile per quelli con poca esperienza. A questo proposito, MEGA fornisce un modo semplice per trovare il miglior modello confrontando i punteggi BIC di modelli candidati. Inoltre, il recentemente aggiornato MEGA 6.0 integra diversi strumenti di allineamento sequenza come muscolo e Clustal W10, che sono molto comodi da usare. Fornisce inoltre una sequenza di editing e alla funzione di costruzione di alberi filogenetici. Queste caratteristiche spiegano in parte perché questo software è così popolare nel campo di evoluzione molecolare computazionale. Per quanto riguarda MrBayes, un notevole vantaggio di questo strumento è che è possibile elaborare i tipi di dati misti insieme (ad es., dati morfologici e molecolari)11e così i risultati sono più completi.
In conclusione, lo studio presente fornisce un metodo per analizzare l'origine molecolare di geni codificanti proteine che hanno subito variazioni complesse quali la fusione dopo la duplicazione o il trasferimento genico orizzontale (HGT) durante l'evoluzione. Si spera, saranno rivelati più risultati con un'ampia applicazione di analisi filogenetica nel campo della ricerca evolutiva.
Gli autori non hanno nulla a rivelare.
Questo lavoro è stato supportato da National Natural Science Foundation of China (31371596), centro di ricerca Bio-tecnologia, Università di Cina tre gole (2016KBC04) e la Fondazione di scienze naturali della provincia di Jiangsu, Cina (BK20151424).
Name | Company | Catalog Number | Comments |
Adobe Illustration | a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017 | ||
BioEdit | a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall | ||
Clustal Omega | a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/ | ||
CorelDRAW | a graphic design software. Copyright © 2017 Corel Corporation | ||
FigTree | a graphical viewer of phylogenetic trees designed by the University of Edinburgh | ||
MEGA | MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home | ||
MrBayes | an Bayesian phylogenetic inference tool | ||
NVIDIA | a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017 | ||
PAUP | Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models. | ||
Photoshop | a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017 | ||
RHYTHM | a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009 | ||
TMHMM | a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/ | ||
Compter | 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10 |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon