Method Article
* Estes autores contribuíram igualmente
É descrito um método de construção de uma árvore filogenética baseada em homologia de sequência de doces de eucariontes e SemiSWEETs de procariontes. A análise filogenética é uma ferramenta útil para explicar o parentesco evolutivo entre proteínas homólogas ou genes de grupos de organismo diferente.
A análise filogenética usa nucleotídeos ou sequências de aminoácidos ou outros parâmetros, como sequências de domínio e de estrutura tridimensional, para construir uma árvore para mostrar a relação evolutiva entre táxons diferentes (unidades de classificação) o molecular nível. A análise filogenética também pode ser usada para investigar as relações de domínio dentro de um táxon individual, particularmente para os organismos que sofreram substancial alteração na morfologia e fisiologia, mas para que pesquisadores faltam evidência fóssil devido à história evolutiva longas dos organismos ou escassez de fossilização.
Neste texto, um protocolo detalhado é descrito por usando o método filogenético, incluindo o alinhamento de sequências de aminoácidos usando Clustal Omega e construção de árvore filogenética subsequentes usando ambos probabilidade máxima (ML) da genética evolutiva Molecular Análise (MEGA) e inferência Bayesiana via MrBayes. Para investigar a origem de genes eukaryotic Será de açúcares eventualmente ser exportados transportadores (doce), foram analisadas 228 doces, incluindo 35 proteínas doces de eucariontes unicelulares e 57 SemiSWEET proteínas de procariontes. Curiosamente, SemiSWEETs foram encontrados em procariontes, mas doces foram encontrados em eucariontes. Duas árvores filogenéticas construídas usando métodos teoricamente distintos consistentemente sugerem que o primeiro gene doce eucariótico pode derivar da fusão de um gene bacteriano meio amargo e um gene de archaeal meio amargo. É interessante notar que um deve ser cauteloso para desenhar uma conclusão baseada apenas na análise filogenética, embora seja útil explicar a relação subjacente entre táxons diferentes, o que é difícil ou mesmo impossível discernir através de meios experimentais .
Sequências de DNA ou RNA carregam informação genética para fenótipos subjacentes que podem ser analisados através de métodos fisiológicos e bioquímicos ou observada através de evidências morfológicas e fósseis. Em certo sentido, a informação genética é mais confiável que avaliar fenótipos externos porque o anterior é a base para o último. No estudo evolutivo, a evidência fóssil é muito direta e convincente. No entanto, muitos organismos, tais como microorganismos, têm pouca chance de formar um fóssil durante o tempo geológicas idades. Portanto, a informação molecular como sequências nucleotídicas e sequências de aminoácidos de organismos existentes relacionados são de valor para explorar as relações evolutivas1. No presente estudo, uma simples introdução de conhecimentos básicos filogenético e um protocolo fácil de aprender foi fornecida para os novatos que precisam construir uma árvore filogenética por conta própria.
ADN (nucleotídeos) e sequências de proteínas (aminoácido) podem ser usadas para inferir relações filogenéticas entre genes homólogos, organelas ou mesmo organismos2. Sequências de DNA são mais susceptíveis de serem afectadas por alterações durante a evolução. Em contraste, as sequências de aminoácidos são muito mais estáveis, dado que mutações sinónimas em sequências nucleotídicas não causam mutações em sequências de aminoácidos. Como resultado, as sequências de ADN são úteis para comparação de genes homólogos de organismos aparentados, Considerando que as sequências de aminoácidos são apropriadas para genes homólogos de organismos distantemente relacionados3.
Uma análise filogenética começa com o alinhamento de aminoácidos ou de sequências de nucleotídeos4 Obtida de um genoma anotado sequenciamento de banco de dados5 listados no formato FASTA, ou seja, proteínas expressas ou putativa sequências, sequências de RNA , ou sequências de DNA. É interessante notar que é fundamental para recolher sequências de alta qualidade para a análise, e sequências homólogas só podem ser usadas para analisar relações filogenéticas. Muitas plataformas diferentes como Clustal W, Clustal X, músculo, T-café, MAFFT, pode ser usado para alinhamento de sequências. O mais amplamente utilizado é o Clustal Omega6,7 (http://www.ebi.ac.uk/Tools/msa/clustalo/), que pode ser usado on-line ou pode ser baixado gratuitamente da carga. A ferramenta de alinhamento tem muitos parâmetros que o usuário pode ajustar antes de iniciar o alinhamento, mas os parâmetros padrão funcionam bem na maioria dos casos. Depois que o processo for concluído, as sequências alinhadas devem ser salvo no formato correto para a próxima etapa. Eles devem ser editados ou aparada usando um software de edição, tais como BioEdit, porque a construção de árvore filogenética por MEGA requer as sequências para ser de igual comprimento (incluindo as abreviações de aminoácido e hifens. Na sequência alinhada, qualquer posição sem um aminoácido ou nucleotídeo é representada por um hífen "-"). Geralmente, todos os aminoácidos salientes ou nucleotídeos em cada extremidade do alinhamento devem ser removidos. Além disso, colunas que contêm sequências mal alinhadas no alinhamento podem ser excluídas porque eles transmitem pouca informação valiosa e às vezes podem dar confusas ou falsas informações3. As colunas que contêm um ou mais hífens podem ser excluídas neste momento ou em fase de construção de árvore mais tarde. Alternativamente, eles podem ser usados para cálculo filogenético. Quando o alinhamento de sequências e aparando for concluído, as sequências alinhadas devem ser salvo no formato FASTA, ou o formato desejado, para uso posterior.
Muitas plataformas de software fornecem funções de construção de árvore usando diferentes métodos ou algoritmos. Em geral, os métodos podem ser classificados como métodos de matriz de distância ou métodos de dados discretos. Métodos de matriz de distância são simples e rápidos para calcular, enquanto métodos de dados discretos são complicadas e demoradas. Para táxons muito estreitamente relacionados com um alto grau de compartilhamento da identidade de sequência de aminoácidos ou nucleótidos, um método de matriz de distância (vizinho ingressar: NJ; Método de grupo de pares não ponderada com média aritmética: UPGMA) é apropriado; para táxons distantemente relacionados, um método de dados discretos (máxima verossimilhança: ML; Máxima parcimônia: MP; Inferência Bayesiana) é ideal3,8. Neste estudo, os métodos de ML em MEGA (6.0.6) e inferência Bayesiana (MrBayes 3.2) foram aplicados para construir árvores filogenéticas9. Idealmente, quando o modelo apropriado e parâmetros são usados, os resultados derivados de métodos diferentes podem ser consistentes, e são, portanto, mais confiável e convincente.
Para uma árvore filogenética ML construída usando MEGA10, o arquivo de sequência alinhada no formato FASTA deve ser carregado no programa. Então, o primeiro passo é escolher o modelo ideal de substituição para os dados enviados. Todos os modelos de substituição disponíveis são comparados com base em sequências de carregado, e sua pontuação final será mostrada em uma tabela de resultados. Selecione o modelo com a menor pontuação BIC Bayesian Information Criterion () (listada primeiro na tabela), definir parâmetros de ML, de acordo com o modelo recomendado e começar a computação. O tempo de computação varia de alguns minutos a vários dias, dependendo da complexidade dos dados carregados (comprimento do número de táxons e sequências) e o desempenho do computador no qual os programas são executados. Quando o cálculo for concluído, uma árvore filogenética será mostrada em uma nova janela. Salve o arquivo como "FileName.mat". Depois de definir parâmetros para especificar a aparência da árvore, salve mais uma vez. Usando esse método, MEGA pode gerar figuras de árvore filogenética de ano de publicação.
Para construção de árvore com MrBayes11, o primeiro passo é transformar a sequência alinhada, que normalmente é listada no formato FASTA, em formato de nexo (.nex como o tipo de arquivo). Transformar arquivos FASTA em formato nexus pode ser processado em MEGA. Em seguida, a sequência alinhada no formato nexus pode ser carregada em MrBayes. Quando o arquivo é carregado com êxito, especifica parâmetros detalhados para o cálculo de árvore. Esses parâmetros incluem detalhes como modelo de substituição de aminoácido, taxas de variação, número de cadeia de Markov chain Monte Carlo (MCMC) acoplamento, número ngen, média desvio-padrão de divisão de frequências e assim por diante. Depois que esses parâmetros foram especificados, inicie a computação. No final, duas figuras de árvore no código ASC II, uma apresentando credibilidade de clado e os outros comprimentos de ramo de apresentando, será exibido na tela.
O resultado da árvore será salvo automaticamente como "FileName.nex.con". Este arquivo de árvore pode ser aberto e editado por FigTree, e a figura exibida no FigTree pode ser modificada ainda mais para torná-lo mais adequado para publicação.
Neste estudo, analisaram-se 228 doces proteínas, incluindo 35 doces de eucariontes unicelulares e 57 SemiSWEETs de procariontes, como exemplo. Os doces e o SemiSWEETs foram caracterizadas como glicose, frutose ou transportadores de sacarose através de membranas12,13. A análise filogenética sugere que os dois domínios MtN3/saliva contendo doces podem ser derivados de uma fusão evolutiva de um SemiSWEET bacteriana e de um archaeon14.
1. alinhamento
2. cálculo da árvore filogenética
3. apresentação da árvore filogenética
Nota: Árvore filogenética ML será apresentada quando for concluída a computação usando MEGA (Figura 10).
4. análise da relação de doces e SemiSWEETs usando o alinhamento da sequência
Nota: Este passo pode não ser necessária na análise de sequências comuns.
5. phylogenetic Tree construção com MrBayes
Árvores filogenéticas mostram que todos os domínios de MtN3/saliva primeiros das 35 doces sequências de cluster como um clado e os segundo domínios MtN3/saliva das sequências doces agrupados como outro clado. Além disso, os resultados do alinhamento dos doces e SemiSWEETs mostraram que alguns SemiSWEETs de α-proteobactérias alinhado com o primeiro domínio de MtN3/saliva das sequências doces, Considerando que SemiSWEETs de Methanobacteria (archaea) alinhado com o segundo MtN3/saliva domínio das sequências de doce. Juntos, estes resultados sugerem que os dois domínios MtN3/saliva contendo doces podem ser derivados de uma fusão evolutiva de um SemiSWEET bacteriana e de um archaeon14.
Figura 1 : Salve as sequências alinhadas dos 35 doces eucarióticas putativos como "35.clustal" através de Clustal Omega. Clique aqui para ver uma versão maior desta figura.
Figura 2 : Selecione caminho no BioEdit para aparar as sequências alinhadas de "35.clustal", que foi preparado em Clustal Omega. Clique aqui para ver uma versão maior desta figura.
Figura 3 : Selecione e exclua as sequências irregulares no lado esquerdo das sequências primeiros domínio MtN3/saliva dos 35 doces eucarióticas putativos no BioEdit. Clique aqui para ver uma versão maior desta figura.
Figura 4 : As sequências aparadas do primeiro domínio MtN3/saliva dos 35 doces eucarióticos putativos no BioEdit. Clique aqui para ver uma versão maior desta figura.
Figura 5 : Selecione e copie as sequências de domínio MtN3/saliva primeiras dos 35 doces eucarióticas putativos em MEGA. As sequências copiadas serão coladas em um arquivo doc, para a edição. Clique aqui para ver uma versão maior desta figura.
Figura 6 : Converter "realigned.fas 35" em "35.nex" (formato PAUP) para inferência Bayesiana, numa fase posterior. Clique aqui para ver uma versão maior desta figura.
Figura 7 : Pesquisa para o modelo de substituição de melhor ajuste por MEGA para construção de árvore filogenética de probabilidade máxima (ML) com base no arquivo "35 realigned.fas". Clique aqui para ver uma versão maior desta figura.
Figura 8 : Uma tabela do modelo de substituição de melhor ajuste calculado para ML árvore com base no arquivo "35 realigned.fas". Clique aqui para ver uma versão maior desta figura.
Figura 9 : Especifique os parâmetros para cálculo de árvore ML baseado no modelo de substituição de melhor ajuste para "35 realigned.fas" em MEGA. Clique aqui para ver uma versão maior desta figura.
Figura 10 : Uma árvore ML original construída por MEGA baseado no "35 realigned.fas". Nesta fase, muitas opções para a figura de estilo, tamanho, cor, etc., estão disponíveis. Clique aqui para ver uma versão maior desta figura.
Figura 11 : Alinhamento de 228 doces eucarióticas e 57 SemiSWEETs procarióticas por Clustal Omega. Os resultados foram mostrados em Jalview, integrado Clustal Omega. No alinhamento, alguns SemiSWEETs de α-proteobactérias estavam alinhados com o primeiro domínio de MtN3/saliva das sequências doces, Considerando que SemiSWEETs de Methanobacteria (archaea) estavam alinhados com o segundo domínio de MtN3/saliva das sequências de doce. Clique aqui para ver uma versão maior desta figura.
Figura 12 : Carregar o arquivo "35.nex" em MrBayes na janela DOS. A fim de mostrar os resultados globais, o conteúdo que era similar foi excluído para reduzir o comprimento da figura. Clique aqui para ver uma versão maior desta figura.
Figura 13 : Informações exibidas na tela após a computação do arquivo "35.nex" usando MrBayes. Para mostrar os resultados globais, o conteúdo que era similar foi excluído para reduzir o comprimento da figura. Clique aqui para ver uma versão maior desta figura.
Figura 14 : Resumiu amostras dos parâmetros do modelo para o arquivo "35.nex". Por favor clique aqui para ver uma versão maior desta figura. Clique aqui para ver uma versão maior desta figura.
Figura 15 : Resumiu amostras de árvore do arquivo "35.nex". Para mostrar os resultados globais, o conteúdo que era similar foi excluído para reduzir o comprimento da figura. Clique aqui para ver uma versão maior desta figura.
Figura 16 : Árvore filogenética de "35.nex.con", exibido pelo FigTree. Clique aqui para ver uma versão maior desta figura.
Torna-se cada vez mais popular em pesquisas biológicas, para fazer uma árvore filogenética baseada em nucleotídeos ou sequências de aminoácidos8. Geralmente, existem três estágios críticos da prática incluindo alinhamento de sequências, avaliação das sequências alinhadas com o método adequado ou algoritmo e visualização do resultado computacional como uma árvore filogenética. No estudo apresentado, foram realizadas três rodadas de alinhamento da sequência: primeiro, as sequências de proteína doce, incluindo o primeiro e o segundo domínio de MtN3/saliva, estavam alinhadas; em segundo lugar, cada uma das sequências individuais de domínio MtN3/saliva dos doces como um táxon independente foram recolhidos e alinhados juntos; e finalmente, sequências de meio amargo e doces sequências foram alinhadas em conjunto. Apenas uma rodada de alinhamento de sequências geralmente é necessário para a construção da árvore filogenética.
Na fase preliminar, sequências homólogas podem downloaded de NCBI ou outros bancos de dados. Essas sequências baixadas podem precisar de ser rastreados se eles não são bem anotados. Na primeira e segunda fase, alinhamento e computação não podem ser iniciados se o formato de sequência está incorreto. Por exemplo, Clustal Omega irá rejeitar qualquer partida do formato FASTA no arquivo de sequência. Na fase computacional, observe que os comprimentos de sequência incluindo aminoácidos ou nucleótidos e hífens são obrigados a ser igual antes de ser avaliado por MEGA.
Apesar da riqueza de métodos e modelos para construção de árvore que estão disponíveis, nenhum deles é infalível. Robustos e convincentes de resultados são aquelas que são consistentes com os outros quando modelos ou algoritmos diferentes são usados para avaliar os dados mesmo15. O método de ML, a confiabilidade da topologia de árvore depende em grande medida o valor de inicialização de cada clado; um valor de inicialização de 70 ou maior é geralmente considerado como confiável. No presente estudo, todas as sequências de domínio MtN3/saliva primeiras agrupados como um clado grande com um valor de inicialização de 83. O valor do outro clado contendo todas as segunda MtN3/saliva domínio sequências, no entanto, foi apenas 6 (Figura 10). Para verificar a arquitetura da árvore, MrBayes, que emprega um método completamente diferente16 do ML, foi usado para analisar a relação dos táxons. Probabilidades posterior16 dos clados de primeiro e segundo domínio obtido MrBayes foram 100 e 68, respectivamente (Figura 16).
Outra limitação a ML e a computação MrBayes é que ambos são demorados executar. Usar um computador com processadores de vários núcleos e unidades de processamento gráfico (GPU) é útil para melhorar o desempenho computacional e a velocidade de17,18. Para a operação de MrBayes, um computador com uma placa gráfica discreta e os drivers apropriados do CUDA pode acelerar significativamente a probabilidade de cálculos11.
Selecionar o modelo apropriado para computação de árvore filogenética é difícil para aqueles com pouca experiência. A este respeito, MEGA fornece uma maneira fácil de encontrar o melhor modelo, comparando os escores BIC de modelos de candidato. Além disso, o 6.0 MEGA atualizado recentemente integra várias sequência alinhamento ferramentas tais como músculo e Clustal W10, que são muito convenientes usar. Ele também fornece uma sequência de edição e função de construção de árvore filogenética. Esses recursos parcialmente explicam porque este software é tão popular no campo da evolução molecular computacional. Quanto MrBayes, uma significativa vantagem desta ferramenta é que ele pode processar a tipos de dados misturados juntos (ex., dados morfológicos e moleculares)11e, portanto, os resultados são mais abrangentes.
Em conclusão, o presente estudo fornece um método para analisar a origem molecular da proteína-codificação de genes que sofreram variação complexa tais como fusão, após a duplicação ou transferência horizontal de genes (HGT), durante a evolução. Esperançosamente, conclusões mais serão reveladas com ampla aplicação de análise filogenética, no campo de pesquisa evolucionária.
Os autores não têm nada para divulgar.
Este trabalho foi financiado pela Fundação de ciências naturais da província de Jiangsu, China (BK20151424), centro de pesquisa de Bio-tecnologia, China três gargantas University (2016KBC04) e a Fundação Nacional de ciências naturais da China (31371596).
Name | Company | Catalog Number | Comments |
Adobe Illustration | a graphical tool developed by Adobe Systems Software Ireland Ltd. Copyright © 2017 | ||
BioEdit | a biological sequence alignment editor written for Windows 95/98/NT/2000/XP/7. Copyright © Tom Hall | ||
Clustal Omega | a package for making multiple sequence alignments of amino acid or nucleotide sequences. http://www.clustal.org/ | ||
CorelDRAW | a graphic design software. Copyright © 2017 Corel Corporation | ||
FigTree | a graphical viewer of phylogenetic trees designed by the University of Edinburgh | ||
MEGA | MolecularEvolutionary Genetics Analysis version6.0 http://www.megasoftware.net/home | ||
MrBayes | an Bayesian phylogenetic inference tool | ||
NVIDIA | a company designs graphics processing units (GPUs) for the gaming and professional markets. Corporation Copyright © 2017 | ||
PAUP | Phylogenetic Analysis Using Parsimony. David Swofford's program implements the maximum likelihood method under a number of nucleotide models. | ||
Photoshop | a raster graphics editor developed and published by Adobe Systems Software Ireland Ltd. Copyright © 2017 | ||
RHYTHM | a knowledge based prediction of hekix contacts. Charité Berlin – Protein Formatics Group - Copyright 2007-2009 | ||
TMHMM | a tool for prediction of transmembrane helices in proteins. http://www.cbs.dtu.dk/services/TMHMM/ | ||
Compter | 4 GB memory, Core 2 or above CPU. Windows 7, Windows 10 |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados