Method Article
O objetivo do presente protocolo é desenvolver uma referência para proteínas divergentes em um grupo que carece de critérios coerentes de nomenclatura e classificação. Esta referência irá facilitar as análises e discussões do grupo como um todo e pode ser usada além de nomes estabelecidos.
Proteínas relacionadas que têm sido estudadas em laboratórios diferentes, usando diferentes organismos podem carecer de um sistema uniforme de nomenclatura e classificação, dificultando a discutir no grupo como um todo e colocar novas sequências no contexto apropriado. Desenvolver uma referência que prioriza recursos sequência importantes relacionadas com a estrutura e/ou atividade pode ser usada para além de nomes estabelecidos para adicionar alguma coerência a um grupo diverso de proteínas. Este papel utiliza a superfamília da cisteína-estabilizado alfa-hélice (CS-αβ) como um exemplo para mostrar como uma referência gerada no software de planilha pode clarificar as relações entre proteínas existentes na superfamília, bem como facilitar a adição de novos sequências. Ele também mostra como a referência pode ajudar a refinar os alinhamentos de sequência gerados no software comumente usado, o que afeta a validade das análises filogenéticas. O uso de uma referência provavelmente será mais útil para grupos de proteínas que incluem sequências altamente divergentes de um amplo espectro de táxons, com características que não são adequadamente capturadas por análises moleculares.
Nome de uma proteína deve refletir é características e relação com outras proteínas. Infelizmente, geralmente os nomes são atribuídos no momento da descoberta e, como a investigação continua, pode mudar o entendimento do contexto maior. Isso pode levar a vários nomes se uma proteína independente foi identificada por mais de um laboratório, para mudanças na nomenclatura ou nas características supostamente definitivo ao atribuir o nome e o nome já não suficientemente diferenciando a proteína dos outros.
Invertebrados defensinas fornecem um bom exemplo de degeneração na nomenclatura e classificação. As primeiras defensinas invertebradas foram relatadas de insetos, e o nome "inseto defensina" foi proposto com base na homologia percebida para mamíferos defensinas1,2. O termo defensina ainda é usado, mesmo que é agora claro que defensinas invertebradas e mamíferos não compartilham um ancestral comum de3,4. Dependendo da espécie, um invertebrado "defensina" pode ter seis ou oito cisteínas (que formam três ou quatro ligações de bissulfeto) e uma variedade de atividades antimicrobianas. Para complicar a situação, as proteínas com as mesmas características como defensinas não são sempre chamadas "defensinas," tais como o cremycins recentemente identificados de Caenorhabditis remanei5. Além disso, defensinas grandes invertebradas são mais propensos a ser evolutivamente relacionadas com vertebrados β-defensinas do que para outros invertebrados defensinas6. Apesar disso, pesquisadores às vezes contam com o nome "defensina" ao determinar quais sequências devem ser incluídas nas análises.
Estudos estruturais revelaram a similaridade entre insetos defensinas e Escorpião toxinas7, e a dobra de CS-αβ posteriormente foi estabelecida como a característica estrutural do inseto defensinas8. Esta dobra define superfamília (CS-αβ) semelhantes a toxina de Escorpião na classificação estrutural das proteínas (SCOP) banco de dados9, que atualmente inclui cinco famílias: defensinas insetos, toxinas de cadeia curta Escorpião, Escorpião de cadeia longa toxinas, MGD-1 (a partir de um molusco) e defensinas de plantas. Esta superfamília é sinônimo com o recentemente descrito cis-defensinas4 e superfamília 3.30.30.10 na base de dados 3D CATH/Gene10,11. Estudos de uma variedade de táxons de invertebrados, plantas e fungos mostrar que os nomes das proteínas que contêm esta dobra não estão claramente relacionados com número de cisteína ou padrão de ligação, atividade antimicrobiana ou história evolutiva12.
A falta de consistência e critérios claros torná-lo desafiador para nomear e classificar sequências recentemente identificados nesta superfamília. Um grande obstáculo para comparar as proteínas esta superfamília é que cisteínas estão contadas em relação a cada sequência individual (a primeira cisteína em cada sequência é C1), com nenhuma forma de contabilizar o papel estrutural. Isto significa que podem ser comparadas apenas sequências com o mesmo número de cisteínas. Há pouco conservação de sequência que não seja as cisteínas formando a dobra de CS-αβ, que dificulta a alinhamentos e análises filogenéticas. Através do desenvolvimento de um sistema de numeração que prioriza as características estruturais, superfamília sequências podem ser mais facilmente comparadas e alinhadas. Características conservadas, bem como aqueles definir subgrupos, podem ser visualizadas rapidamente, e novas sequências podem ser mais facilmente colocadas no contexto apropriado.
Este artigo usa um software de planilha (por exemplo, Excel) para gerar uma referência a numeração para a superfamília de CS-αβ. Ele mostra como isso esclarece comparações entre sequências e aplica a novas sequências de CS-αβ, identificadas a partir tardigrades. Usando a superfamília de CS-αβ como um exemplo, o protocolo foi escrito para fornecer orientação ao usar sequências de interesse; no entanto, não se destina especificamente para esta superfamília ou sequências de rica em cisteína. Este método provavelmente será mais útil para grupos de proteínas que foram pesquisadas independentemente dos táxons divergentes e/ou tem pouca homologia de sequência geral, com características distintas que não podem ser facilmente reconhecidos pelo software de análise molecular. Este método requer algumas decisões a priori sobre características importantes, por isso vai ser de utilidade limitada se não características importantes foram identificadas. O objetivo principal é mostrar como uma simples visualização das relações sequência pode ser alcançada. Isto pode ser usado para informar o alinhamento da sequência e análise, mas se o alinhamento e a análise são os principais objetivos, um método de código de barras seria uma alternativa adequada que tem mais capacidade para automação13. O método atual exibe as características de cada peptídeo de forma linear, por isso não vai ser útil para a visualização directa da estrutura 3D.
1. determinar as características de definição do grupo de proteínas de interesse
2. Recolher sequências relevantes
3. Gerar uma referência em uma planilha com base nos importantes recursos que foram identificados
4. Usar a referência para refinar alinhamentos de aminoácido
Nota: existem muitos programas que podem ser usados para alinhamentos múltiplos da sequência, mas esta demonstração irá utilizar a análise genética evolutiva Molecular (MEGA6) 19 porque está disponível para download gratuito.
5. Comparar os grupos identificados usando a referência com resultados de análises filogenéticas
Grupos de sequências na superfamília CS-αβ relatados na literatura são mostrados na Figura 4. Os pares de cisteína baseados a numeração para cada sequência de sugerem cinco grupos básicos (tabela 1, coluna do meio). Grupo 1 tem seis cisteínas que de bissulfeto de três títulos e inclui sequências de insetos, aracnídeos, moluscos, nematoides e fungos. Grupos 2, 3 e 4 têm 8 cisteínas que formam quatro ligações de bissulfeto. Grupo 2 inclui insetos, aracnídeos e sequências de planta; Grupo 3 inclui aracnídeo, molusco e sequências de nematoides; e grupo 4 inclui sequências de cnidários, Anelídeos, moluscos e fungos. Grupo 5 inclui as 10 macins de cisteína. Algumas sequências não couberam bastante esses padrões, mas eram geralmente mais perto de um grupo do que os outros.
Os grupos 1 e 2 parecem partilhar duas obrigações: C2-C5 e C6-C3; no entanto, começando a numeração de cada sequência com sua primeira cisteína não reconhece o contexto estrutural das obrigações. C2-C5 no grupo 1 sequências formas um dos dois títulos em motivo de CSH, enquanto C2-C5 no grupo 2 sequências forma a ligação final necessária para estabilizar a dobra de CS-αβ. O laço homólogo para o grupo 1 C2-C5 é grupo2 C3-C6, que não é evidente a partir da numeração. Também não é óbvio que no grupo 3, o vínculo de C2-C6 desempenha o mesmo papel estrutural.
Usar sequências da literatura gerada uma referência com um total de dez cisteínas. O motivo do CSH é formado por títulos C8-C3 e C4-C9, com C6-C2 completando a dobra de CS-αβ. Renumerar os pares de cisteína baseados os números de referência esclarece os títulos presentes em cada sequência (tabela 1, coluna da direita). Agora é óbvio que todas as sequências de C2-C6, C8-C3 e C4-C9, refletindo a dobra estrutural que define a superfamília. O uso de uma referência permite fácil comparação entre sequências que possuem nomenclatura inconsistente e critérios de classificação ambígua. Também pode ajudar a identificar as características que definem um subgrupo de sequências. Por exemplo, o laço de C1-C7 pode diferenciar macins de outros membros da superfamília, tornando-o adequado para classificar sequências com este vínculo como "macins" ao invés de "defensinas" (tabela 1 e Figura 4).
Buscas de bases de dados on-line públicas revelaram dezasseis sequências de tardigrades claramente com o CS-αβ dobre, oito de Hypsibius dujardini e Milnesium tardigradum. Quatro das novas sequências têm seis cisteínas, nove já oito anos, um tem nove anos e dois têm 10 anos. Isto dá muito pouca informação, mas alinhando as sequências para a referência, torna-se claro que tardigrade sequências com o mesmo número de cisteínas nem sempre têm as cisteínas estruturalmente importante no mesmo lugar dentro da sequência ( Figura 5 e Figura 6). O alinhamento com a referência também permite a inferência de ligação padrões (tabela 2, inferir padrões de ligação mostrados entre parênteses). Algumas das sequências tardigrade claramente cabem padrões 1-4. Outros são mais semelhantes o proposta ancestral bacteriano, Escorpião Cl-toxina ou uma família de fungos defensina-como peptides. Padrão 2 pode ter dois subgrupos, um representado por Escorpião Na + toxinas, drosomycin e defensinas de plantas e o outro escorpião Cl-toxinas. É necessário mais trabalho investigando a função das proteínas tardigrade para determinar se alguns devem ser consideradas as toxinas, ao invés de defensinas.
Análises filogenéticas são frequentemente usadas para estudar como um grupo de proteínas pode ter evoluído. As sequências da superfamília de CS-αβ são geralmente curtos e altamente divergentes; resultante de árvores muitas vezes são mal resolvidas e oferecem pouca introspecção. Árvores do ML e Bayesiana para o subconjunto de sequências analisadas aqui foram mal resolvidas, com baixo suporte para muitos clados (Figura 10, complementar arquivos 1 - 4). É prática comum para mostrar apenas os níveis de inicialização mais de 70 (ou probabilidades posteriores sobre 0,7), mas Figura 10 retém todos os números para demonstrar os total de baixos níveis de apoio. Cinco grupos foram apoiados acima 70/0.7 em pelo menos uma das duas árvores: (a) um 6C e toxina Escorpião 8C; (b) macins; (c) carrapato e defensinas de Escorpião; (d) planta defensinas; e (e) 6C defensinas de moluscos, insetos e aracnídeos. Na árvore do ML, clado e também inclui uma toxina 8C e um 8C tardigrade defensina, mas apoio era muito baixo (Figura 10A). Em geral, estes refletem as categorias identificadas usando a numeração de cisteína de referência mas também mostram que sequências com números de cisteína diferentes dentro de um grupo taxonômico grande podem ser mais estreitamente relacionadas do que sequências com o mesmo padrão de diferentes grupos. Enquanto apenas um pequeno número de sequências foram utilizado neste estudo, uma maior análise de 250 sequências não eliminar a falta de resolução (complementar de arquivos de 5 - 8)12. O alinhamento de referência de planilha pode oferecer mais fácil visualização das semelhanças com relevância estrutural ou funcional, em comparação com árvores filogenéticas.
Figura 1: Definição de sequência e características estruturais da superfamília CS-αβ. Estrutura 3D e aminoácidos são codificados por cores: laço (azul), alfa-hélice (verde), beta-folhas (ouro) e ligações de bissulfeto (rosa). Clique aqui para ver uma versão maior desta figura.
Figura 2: Prejudicial de seis-cisteína baseado na sequência de inseto defensina. As colunas indicam as cisteínas conservadas (C1-C6) e, por motivo de CSH, o número de conservada amino ácidos entre as cisteínas. As caixas cheias indicam que a sequência a cisteína determinada e os números indicam aminoácidos entre as cisteínas. Clique aqui para ver uma versão maior desta figura.
Figura 4 : Resumo de CS-αβ superfamília sequências alinhadas com referência pelas características do grupo. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Annelida (vermelho escuro), Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), fungos (verde claro), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo) e Plantae (verde). Números separados por um traço indicam uma gama de aminoácidos intermediárias; números separados por uma barra representam ou / ou. Um "C" indica uma cisteína adicional que não ocorre com bastante frequência para justificar a adição à referência. Clique aqui para ver uma versão maior desta figura.
Figura 5 : Adição de sequências Tardigrade CS-αβ para alinhamento da superfamília com referência pelas características do grupo. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Annelida (vermelho escuro), Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), fungos (verde claro), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo), Plantae (verde) e Tardigrada (amarelo). Números separados por um traço indicam uma gama de aminoácidos intermediárias; números separados por uma barra representam ou / ou. Um "C" indica uma cisteína adicional que não ocorre com bastante frequência para justificar a adição à referência. Clique aqui para ver uma versão maior desta figura.
Figura 6: Adição de sequências Tardigrade CS-αβ para alinhamento da superfamília com referência por grupo taxonômico. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Annelida (vermelho escuro), Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), fungos (verde claro), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo), Plantae (verde) e Tardigrada (amarelo). Números separados por um traço indicam uma gama de aminoácidos intermediárias; números separados por uma barra representam ou / ou. Um "C" indica uma cisteína adicional que não ocorre com bastante frequência para justificar a adição à referência. Clique aqui para ver uma versão maior desta figura.
Figura 7: Sequência desalinhada usando automatizado alinhamento. Conservados em todas as sequências de aminoácidos são indicados por * na linha acima a primeira sequência (esboçada em caixas-de-rosa). AlCRP está desalinhado. A diferença precisa ser removido para alinhar corretamente o C (seta cor de rosa). Clique aqui para ver uma versão maior desta figura.
Figura 8: Manual refinamento do alinhamento preserva as características estruturalmente importantes das sequências. AlCRP agora está alinhada corretamente (seta cor de rosa), e o motivo do CXXXC é totalmente conservado para as sequências (caixas-de-rosa). Clique aqui para ver uma versão maior desta figura.
Figura 9 : Sequências redundantes em um alinhamento. Se há pares de sequências quase idênticas (caixas-de-rosa), um pode ser removido, uma vez que estes serão provavelmente sempre cluster juntos em e contribuem pouco para a topologia geral da árvore. Clique aqui para ver uma versão maior desta figura.
Figura 10 : Comparação das árvores gerados a partir de análises filogenéticas. Máximo (A) análise de probabilidade na MEGA, com 1.000 bootstrap Replica usando o WAG + G + modelo. (B) análise Bayesiana com 1.000.000 gerações usando a configuração de modelo misto. Clados suportados no 70/0,7 são mostrados em linhas sólidas de rosa; linhas tracejadas Rosa mostram clados suportados no 70/0,7 na outra árvore. b a C de 6 e uma toxina de Escorpião 8C; (b) macins; (c) carrapato e defensinas de Escorpião; (d) planta defensinas; e (e) 6C defensinas de moluscos, insetos e aracnídeos. Clique aqui para ver uma versão maior desta figura.
Tabela 1: grupos dentro da superfamília de CS-αβ baseiam em padrões de cisteína-emparelhamento. Cinco padrões básicos de formação de ligação são mostrados usando números internos (coluna do meio) ou números de referência (coluna direita). Escorpião Cl - toxinas, ASABF 6Cys-alfa e um grupo de péptidos fúngicos são colocados com o padrão que mOST se aproxima. Uma cisteína não incluída na referência é indicada por um sobrescrito de cisteínas os antes/depois (e.g., C3/4 é entre C3 e C4).
Tabela 2: adição de CS-αβ Tardigrade sequências de cisteína-emparelhamento padrão grupos. Tardigrade defensinas e macins (negrito) são colocados nos grupos previamente estabelecidos, sempre que possível. Algumas sequências tardigrade podem mostrar um padrão específico de grupo. Uma cisteína não incluída na referência é indicada por um sobrescrito de cisteínas os antes/depois (e.g., C3/4 é entre C3 e C4). A notação "2C1" indica que existem duas cisteínas montante de referência C1.
Complementar arquivo 1 (S1): alinhamento deste Dataset em MEGA. Clique aqui para baixar este arquivo.
Arquivo complementar 2 (S2): árvore de máxima probabilidade MEGA arquivo para este Dataset. Clique aqui para baixar este arquivo.
Arquivo complementar 3 (S3): alinhamento deste Dataset no formato Nexus para MrBayes. Clique aqui para baixar este arquivo.
Arquivo complementar 4 (S4): arquivo de consenso da análise MrBayes deste Dataset. Clique aqui para baixar este arquivo.
Arquivo complementar 5 (S5): alinhamento de 250 CS-αβ sequências em MEGA. Clique aqui para baixar este arquivo.
Complementar arquivo 6 (S6): árvore de probabilidade máxima de 250 sequências de CS-αβ. Clique aqui para baixar este arquivo.
Arquivo complementar 7 (S7): alinhamento de 250 CS-αβ sequências em Nexus Formatar para MrBayes. Clique aqui para baixar este arquivo.
Arquivo complementar 8 (S8): arquivo de consenso da análise de 250 sequências de CS-αβ MrBayes. Clique aqui para baixar este arquivo.
Os critérios para a nomeação de uma proteína dentro de um grupo devem ser claros, mas isso não é sempre o caso. Sequências que têm o CS-αβ dobre têm sido estudadas em muitos laboratórios usando uma variedade de organismos, resultando em diferentes sistemas de nomenclatura, bem como diferentes níveis de caracterização. A tentativa de impor uma completamente nova nomenclatura não é razoável e resultaria em uma grande quantidade de confusão quando consultar a literatura anterior. Uma sistema de numeração de referência pode ser usada para além do nome de uma proteína para esclarecer suas características em relação a superfamília.
Grupos de proteínas com critérios claros para não provavelmente de nomenclatura e classificação vai beneficiam gerando uma referência em uma planilha, embora possa ser útil para resumir grandes números de sequências e visualização de características importantes. Logotipos e alinhamentos de sequência são úteis para investigar o nível de conservação em cada local, mas não ativamente priorizar recursos sequência importantes para a estrutura ou função. O exemplo de CS-αβ focada na estrutura, mas aminoácidos específicos que formam um sítio de ligação também pode ser incorporados como uma característica definidora. Como são identificados os recursos de sequência que conferem actividades específicas de antimicrobianos/tóxico de peptídeos de CS-αβ, estas podem ser adicionadas à referência para esclarecer grupos com base em atividade. Embora apenas os peptídeos maduros previstos foram usados neste exemplo, se a presença de um peptídeo sinal ou pro-peptídeo é importante, essa informação pode ser adicionada para cada sequência. Inserção específica ou eventos de exclusão, bem como locais de intrão, também podem ser incluídos se eles são pensados para ser informativo. Uma vantagem de usar MrBayes para a análise filogenética é que ele não é limitado a dados molecular que pode analisar dados de codificação para outras características que podem ter importância evolutiva. Estes podem ser codificados como presentes ou ausentes, fornecendo mais informações do que a sequência sozinha.
Coletar as sequências relevantes é uma etapa crítica do protocolo. Dependendo do escopo do estudo e a distribuição dos membros do grupo, este pode abranger grandes grupos taxonômicos. Se o objetivo é compreender todo um grupo de proteínas, considere que algumas sequências podem ser encontradas fora as espécies que eles geralmente são relatados de. Se um taxon é já bem representado e sequências adicionais são improváveis ou redundantes, excluindo-os da busca pode ser apropriado. Base-de-regra para recuperar hits em uma busca de explosão é usar uma interrupção de -05 para o e-valor. E o valor é o número de acertos esperado por acaso. Enquanto isto é apropriado para algumas situações, se houver um grupo de sequências que é altamente divergente mas ações características específicas, pode ser menos confiável que pode recuperar as sequências que são semelhantes, mas fazer não querer as características específicas, e não pode retorne sequências que têm as características principais, mas que são muito divergentes. Existem algumas maneiras possíveis de abordar esta questão. A primeira é olhar para as sequências identificadas na pesquisa que estão abaixo do Cut-off-05 para ver se eles atendem aos critérios de inclusão. Em segundo lugar, se há informações suficientes, use explosão de iterada de posição específica (PSI-BLAST)22 ou padrão-Hit iniciada BLAST (PHI-BLAST)23. PSI-BLAST usa os resultados de uma pesquisa inicial para gerar um novo modelo para a próxima rodada e pode às vezes encontrar sequências divergentes que a busca inicial não se identificar. PHI-explosão requer um padrão a ser enviada junto com a sequência de consulta. Isso restringe as sequências obtidas para aqueles que contêm o padrão de interesse. Esta ferramenta é especialmente útil se um tema exclusivo para o grupo pode ser claramente identificado.
Um alinhamento exato é crítico para análise filogenética; interpretações de árvores só são válidas se eles são gerados usando o bom alinhamento. Usando a referência para informar o alinhamento pode ajudar a evitar erros que só são evidentes quando a estrutura ou atividade são considerados. Redundância de sequência precisará ser definida para o projeto. Duas sequências que parecem redundantes podem não ser para fins filogenéticas se eles são de táxons amplamente divergentes ou são quase idênticos em sequência, mas têm diferentes propriedades estruturais ou funcionais. Se houver ambiguidade sobre os quais as sequências devem ser incluídas, alinhamentos múltiplos podem ser gerados e analisados separadamente para ver como o alinhamento muda inferências filogenéticas de impacto. O método apresentado aqui não elimina a necessidade para o ajuste manual dos alinhamentos, mas pode ajudar a esclarecer como as sequências devem estar alinhados e possivelmente poderiam ser usadas em conjunto com uma técnica mais sofisticada de código de barras do que tem sido descrito anteriormente a13.
Para a referência a ser útil, é importante identificar as características definidoras que não são óbvias no momento da sequência de sozinho. Por exemplo, considere a incapacidade de comparar cisteína ligação padrões entre sequências com números diferentes de cisteínas quando cada sequência é numerada com respeito a mesmo. O objetivo é facilitar a comparação e discussão, para não adicionar outra camada de confusão. Isso pode envolver várias iterações da referência e chamadas de julgamento para decidir quais recursos para incluir. Espera-se que adotar um método comum de discutir sequências divergentes em um grupo irá aumentar o entendimento do grupo como um todo.
O autor não tem nada para divulgar.
Investigação em curso tardigrade peptídeo antimicrobiano é suportada pelo intramural de financiamento do centro-oeste Universidade escritório de pesquisa e programas patrocinados (ORSP). O ORSP não tinha qualquer papel no projeto de estudo, coleta de dados, análise, interpretação ou preparação do manuscrito.
Name | Company | Catalog Number | Comments |
BLAST webpage | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
EditSeq (Lasergene suite) | DNASTAR | https://www.dnastar.com/t-allproducts.aspx | |
Excel 2013 | Microsoft | ||
FigTree | http://tree.bio.ed.ac.uk/software/figtree/ | ||
MEGA | www.megasoftware.net | ||
MrBayes | http://mrbayes.sourceforge.net/ | ||
SCOP database | http://scop.mrc-lmb.cam.ac.uk/scop/ |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados