Criando e aplicando uma referência para facilitar a discussão e a classificação das proteínas em diversos grupos

D. Ellen K. Tarr

doi:10.3791/56107

Autores

Entre em contato

Entrar

Neste Artigo

Resumo
Resumo
Introdução
Protocolo
Resultados
Discussão
Divulgações
Agradecimentos
Materiais
Referências
Reimpressões e Permissões

Resumo

O objetivo do presente protocolo é desenvolver uma referência para proteínas divergentes em um grupo que carece de critérios coerentes de nomenclatura e classificação. Esta referência irá facilitar as análises e discussões do grupo como um todo e pode ser usada além de nomes estabelecidos.

Resumo

Proteínas relacionadas que têm sido estudadas em laboratórios diferentes, usando diferentes organismos podem carecer de um sistema uniforme de nomenclatura e classificação, dificultando a discutir no grupo como um todo e colocar novas sequências no contexto apropriado. Desenvolver uma referência que prioriza recursos sequência importantes relacionadas com a estrutura e/ou atividade pode ser usada para além de nomes estabelecidos para adicionar alguma coerência a um grupo diverso de proteínas. Este papel utiliza a superfamília da cisteína-estabilizado alfa-hélice (CS-αβ) como um exemplo para mostrar como uma referência gerada no software de planilha pode clarificar as relações entre proteínas existentes na superfamília, bem como facilitar a adição de novos sequências. Ele também mostra como a referência pode ajudar a refinar os alinhamentos de sequência gerados no software comumente usado, o que afeta a validade das análises filogenéticas. O uso de uma referência provavelmente será mais útil para grupos de proteínas que incluem sequências altamente divergentes de um amplo espectro de táxons, com características que não são adequadamente capturadas por análises moleculares.

Introdução

Nome de uma proteína deve refletir é características e relação com outras proteínas. Infelizmente, geralmente os nomes são atribuídos no momento da descoberta e, como a investigação continua, pode mudar o entendimento do contexto maior. Isso pode levar a vários nomes se uma proteína independente foi identificada por mais de um laboratório, para mudanças na nomenclatura ou nas características supostamente definitivo ao atribuir o nome e o nome já não suficientemente diferenciando a proteína dos outros.

Invertebrados defensinas fornecem um bom exemplo de degeneração na nomenclatura e classificação. As primeiras defensinas invertebradas foram relatadas de insetos, e o nome "inseto defensina" foi proposto com base na homologia percebida para mamíferos defensinas¹^,². O termo defensina ainda é usado, mesmo que é agora claro que defensinas invertebradas e mamíferos não compartilham um ancestral comum de³^,⁴. Dependendo da espécie, um invertebrado "defensina" pode ter seis ou oito cisteínas (que formam três ou quatro ligações de bissulfeto) e uma variedade de atividades antimicrobianas. Para complicar a situação, as proteínas com as mesmas características como defensinas não são sempre chamadas "defensinas," tais como o cremycins recentemente identificados de Caenorhabditis remanei⁵. Além disso, defensinas grandes invertebradas são mais propensos a ser evolutivamente relacionadas com vertebrados β-defensinas do que para outros invertebrados defensinas⁶. Apesar disso, pesquisadores às vezes contam com o nome "defensina" ao determinar quais sequências devem ser incluídas nas análises.

Estudos estruturais revelaram a similaridade entre insetos defensinas e Escorpião toxinas⁷, e a dobra de CS-αβ posteriormente foi estabelecida como a característica estrutural do inseto defensinas⁸. Esta dobra define superfamília (CS-αβ) semelhantes a toxina de Escorpião na classificação estrutural das proteínas (SCOP) banco de dados⁹, que atualmente inclui cinco famílias: defensinas insetos, toxinas de cadeia curta Escorpião, Escorpião de cadeia longa toxinas, MGD-1 (a partir de um molusco) e defensinas de plantas. Esta superfamília é sinônimo com o recentemente descrito cis-defensinas⁴ e superfamília 3.30.30.10 na base de dados 3D CATH/Gene¹⁰^,¹¹. Estudos de uma variedade de táxons de invertebrados, plantas e fungos mostrar que os nomes das proteínas que contêm esta dobra não estão claramente relacionados com número de cisteína ou padrão de ligação, atividade antimicrobiana ou história evolutiva¹².

A falta de consistência e critérios claros torná-lo desafiador para nomear e classificar sequências recentemente identificados nesta superfamília. Um grande obstáculo para comparar as proteínas esta superfamília é que cisteínas estão contadas em relação a cada sequência individual (a primeira cisteína em cada sequência é C1), com nenhuma forma de contabilizar o papel estrutural. Isto significa que podem ser comparadas apenas sequências com o mesmo número de cisteínas. Há pouco conservação de sequência que não seja as cisteínas formando a dobra de CS-αβ, que dificulta a alinhamentos e análises filogenéticas. Através do desenvolvimento de um sistema de numeração que prioriza as características estruturais, superfamília sequências podem ser mais facilmente comparadas e alinhadas. Características conservadas, bem como aqueles definir subgrupos, podem ser visualizadas rapidamente, e novas sequências podem ser mais facilmente colocadas no contexto apropriado.

Este artigo usa um software de planilha (por exemplo, Excel) para gerar uma referência a numeração para a superfamília de CS-αβ. Ele mostra como isso esclarece comparações entre sequências e aplica a novas sequências de CS-αβ, identificadas a partir tardigrades. Usando a superfamília de CS-αβ como um exemplo, o protocolo foi escrito para fornecer orientação ao usar sequências de interesse; no entanto, não se destina especificamente para esta superfamília ou sequências de rica em cisteína. Este método provavelmente será mais útil para grupos de proteínas que foram pesquisadas independentemente dos táxons divergentes e/ou tem pouca homologia de sequência geral, com características distintas que não podem ser facilmente reconhecidos pelo software de análise molecular. Este método requer algumas decisões a priori sobre características importantes, por isso vai ser de utilidade limitada se não características importantes foram identificadas. O objetivo principal é mostrar como uma simples visualização das relações sequência pode ser alcançada. Isto pode ser usado para informar o alinhamento da sequência e análise, mas se o alinhamento e a análise são os principais objetivos, um método de código de barras seria uma alternativa adequada que tem mais capacidade para automação¹³. O método atual exibe as características de cada peptídeo de forma linear, por isso não vai ser útil para a visualização directa da estrutura 3D.

Protocolo

1. determinar as características de definição do grupo de proteínas de interesse

publicações anteriores de consulta para determinar se há um consenso sobre os recursos que são necessários para ser considerado parte do grupo. Tome nota de quaisquer inconsistências ou diferenças de opinião entre grupos de pesquisa e incluem características que podem servir para diferenciar um subgrupo de outro.
Se a literatura anterior não resolver características definidoras, use sequências que são consideradas representativas do grupo como ponto de partida para identificar características conservadas.

2. Recolher sequências relevantes

se comentários foram escritos que incluem análises de sequências que estão representando o grupo, incluem essas sequências no conjunto de dados bruto. Recuperar sequências usando números de adesão referenciados na literatura e salvar em uma sequência padrão, programa de edição (por exemplo, EditSeq em suíte Lasergene ou um dos muitos disponíveis para on-line gratuito).
Se o grupo em questão tiver sido definido em um dos bancos de dados estruturais, incluem as sequências de que listas de banco de dados como sendo parte do grupo... recuperar sequências usando números de adesão fornecidos no banco de dados e salvar em uma sequência padrão de edição programa, como acima.
Nota: por exemplo, as sequências categorizadas na superfamília CS-αβ (Escorpião toxina semelhante) no banco de dados SCOP podem ser encontradas aqui: http://scop.mrc-lmb.cam.ac.uk/scop/data/scop.b.h.c.h.html.
executar básico Local Pesquisas de ¹⁴ alinhamento ferramenta de pesquisa (explosão) do públicos on-line bancos de dados, disponíveis através do centro nacional para Biotechnology Information (NCBI) para encontrar as sequências que podem não ter sido incluídas na literatura ou estruturais bancos de dados. Para a maioria resultados completos, use tanto a proteína BLAST (blastp) e traduzido explosão com programas de consulta (tblastn) de proteína; Estes estão disponíveis em: https://blast.ncbi.nlm.nih.gov/Blast.cgi.
1. Sequências de uso conhecidas por ser parte do grupo de interesse, como sequências de consulta. Copiar e colar a sequência na caixa Pesquisar na parte superior ou fornecer um GenBank adesão número gi identificador ou, se disponível.
2. Escolher o banco de dados no menu suspenso. Escolha sequências de proteína não-redundante (nr) para blastp e expressou tag sequência para tblastn.
3. Busca de resultados específicos dos táxons no organismo de configuração digitando o nome do táxon ou do organismo e escolhendo na lista exibida durante a digitação. Para adicionar organismos adicionais ou táxons para excluir, clique no " + " botão e outro campo aparecerá. Excluir qualquer táxons não desejadas na caixa de organismo, digitando o nome do organismo ou táxon, escolhendo na lista exibida durante a digitação e verificando a " excluir " caixa à direita.
4. Acessar parâmetros adicionais clicando no " parâmetros de algoritmo " perto da parte inferior da página. Deixe no padrão, a menos que haja uma justificativa para alterar um parâmetro.
5. Clique o " explosão " botão para executar a análise; pode demorar algum tempo para que os resultados aparecem. Em geral, recuperar hits com um esperado valor (ou e-valor) de " -05 " ou melhor e salvar em uma sequência padrão, programa de edição.
  1. Se todos os hits estão acima desse limite, execute novamente a pesquisa com um aumento do número de sequências de destino (na seção de parâmetros do algoritmo) para obter todas as sequências relevantes.
Se necessário, apare as sequências para excluir informações irrelevantes (por exemplo, a dobra de CS-αβ aplica-se somente para o peptídeo maduro). Identificar o sinal peptídeos e pro-peptídeos para remoção usando ProP ¹⁵ (disponível on-line), ou SignalP para mais sofisticados sinal peptídeo previsão ¹⁶ (disponível on-line).

3. Gerar uma referência em uma planilha com base nos importantes recursos que foram identificados

identifica as características que definem o grupo de interesse. Por exemplo, usar a dobra de CS-αβ definitivamente estabelecida pela estrutura de solução de insecto defensina A partir da mosca negra terraenovae ( Figura 1) ⁸.
1. Deste aprisco inclui um motivo menor chamado a hélice estabilizada cisteína (CSH) ¹⁷; identificar esse motivo por um CXXXC (onde X é qualquer aminoácido) montante de um CXC que formam duas ligações de bissulfeto ( Figura 1 , sólido rosa linhas).
  Nota: Para completar o tema CS-αβ, uma terceira ligação dissulfureto é formada a partir de cisteínas adicionais colocadas antes de cada metade do motivo do CSH ( Figura 1, pontilhada de linhas-de-rosa).
Entrar estas definindo características em uma planilha. Consulte a Figura 2.
1. Colunas de uso para as características conservadas e para representar os espaços entre estas características. Manter as colunas largas o suficiente para caber a números e garantir que eles tenham uma largura consistente. Definir a largura usando o " formato | Largura da coluna " função ( Figura 2, seta rosa).
2. Usar as linhas para os nomes de sequência.
3. Quando uma sequência tem o recurso, preencha a caixa usando a função de preenchimento ( Figura 2, Praça rosa). Para espaçamento entre recursos, insira o número de aminoácidos na caixa entre e deixá-lo vazio. Por exemplo, usando o inseto defensina sequência dá uma referência que inclui seis cisteínas, com espaçamentos definidos entre C2 e C3 e C5 e C6.
Adicionar sequências representativas que foram previamente estabelecidas como membros do grupo, baseado na literatura e bancos de dados estruturais.
Nota: por exemplo, literatura anterior e banco de dados SCOP identificam vários grupos para inclusão: insetos defensinas, toxinas de cadeia curta Escorpião, Escorpião de cadeia longa toxinas, MGD-1 planta defensinas, nematódeo ABFs, drosomycins da drosófila, e macins. A literatura também identifica uma sequência bacteriana com apenas quatro cisteínas que representasse o ancestral desta superfamília ¹⁸. Adicionar essas sequências aumenta o número de cisteínas na referência de seis a dez anos, mas mantém o alinhamento das características estruturais importantes ( Figura 3).
1. Para adicionar um recurso que é provável que definir um subgrupo de sequências (por exemplo, uma cisteína extra), use o " inserir " função ( Figura 3, flecha-de-rosa).
2. Se existem recursos faltando em uma determinada sequência, deixar a caixa vazia e combiná-lo com caixas representando intermediárias de aminoácidos. Se necessário, mesclar as células usando o recurso de mesclagem e centro ( Figura 3, caixa-de-rosa).
Continuar adicionando sequências aos grupos para obter uma melhor imagem da variação de cada grupo da superfamília maior. Resumir as características do grupo para facilitar comparações ( Figura 4).
1. Quando o número de aminoácidos entre os principais recursos varia, usar um hífen para indicar um intervalo, como 6-12 (6 a 12 aminoácidos) e uma barra para indicar ou / ou, como 7/10 (7 ou 10 aminoácidos).
2. Escolher uma maneira de anotar características de sequências que podem ser relevantes, mas não ocorrem com frequência suficiente para incluir na referência. Por exemplo, desde cisteínas são importantes para esta superfamília, rotular cisteínas adicionais ( Figura 4, caixas-de-rosa).
Adicionar proposequências de y-identificado na planilha usando as sequências estabelecidas como um guia. Por exemplo, adicionando sequências de tardigrades (amarelo) mostra que as sequências tardigrade cair em diferentes grupos da superfamília ( a Figura 5 mostra resumos em vez de uma linha para cada sequência para fins de espaço).
Mostrar a variabilidade dentro de um grupo taxonômico rearranjando as linhas ( Figura 6).

4. Usar a referência para refinar alinhamentos de aminoácido

Nota: existem muitos programas que podem ser usados para alinhamentos múltiplos da sequência, mas esta demonstração irá utilizar a análise genética evolutiva Molecular (MEGA6) ¹⁹ porque está disponível para download gratuito.

Download e instalar o software.
Comece um novo alinhamento no MEGA selecionando " editar/construir alinhamento " sob o Tab. Align selecione " criar um novo alinhamento " na caixa que aparece e clique em " Okey. " em seguida, selecione " proteína. "
Select " inserir a sequência de arquivo " no " editar " menu para importar as sequências de.
Nota: Sequências precisará estar no formato FASTA para importação na MEGA. Cores de fundo que refletem tipos diferentes de aminoácidos são usadas por padrão, mas esta opção pode ser desativada sob o " Display " menu.
Uma vez todas as sequências são inseridas, clique no ícone de braço flexionando e depois " alinhar proteína " para alinhar as sequências usando o algoritmo de músculo ²⁰.
Nota: O ClustalW também está disponível.
1. Se uma mensagem dizendo que nada tem estado selecionado aparece e pede para selecionar tudo, clique " Okey. "
2. Nota: isso abre uma janela que permite alterar alguns parâmetros, mas eles só devem ser alterados não há razão para fazê-lo. Esta análise usa um subconjunto das sequências analisadas em um anterior de papel ¹².
Verificar o alinhamento baseado nas características do importantes; Observe que na barra superior as sequências irá mostrar todas as colunas onde o aminoácido é completamente conservada (*). Ver Figura 7. Veja que o alinhamento inicial mostra apenas três as quatro cisteínas conservadas ( Figura 7, caixas-de-rosa); olhando para baixo a coluna, a sequência de AlCRP é claramente alinhada ( Figura 7, flecha-de-rosa).
Para se livrar da grande lacuna entre o eu e o C conservada, realçar os traços e pressione o " excluir " chave. Não destacar qualquer aminoácidos, ou eles serão excluídos também.
De aminoácidos para a direita mover-se, destacar e pressione barra de espaço
1. Nota que a AlCRP tem agora as cisteínas estruturais alinhadas e que a última C do motivo do CXXXC é conservada durante todo o alinhamento ( Figura 8). Ajustar o alinhamento conforme necessário para priorizar as características mais importantes das sequências.

5. Comparar os grupos identificados usando a referência com resultados de análises filogenéticas

de alinhamentos preliminares, determinar quais as sequências devem ser incluídas em uma análise filogenética; para um pequeno número de sequências, esta etapa pode ser desnecessário.
1. Manter um arquivo de alinhamento que inclua todas as sequências, mas para uma análise filogenética, remover sequências redundantes ( Figura 9, rosa caixas mostrar pares de sequências redundantes).
2. Se o conjunto de dados inclui um grande número de sequências, execute uma análise preliminar e selecionados representantes de grupos que sempre formam um clado.
Determinar o melhor modelo de substituição de aminoácido.
1. Exportar o alinhamento no formato MEGA (sob a guia de dados).
2. Vá para o menu de modelos e selecione " encontrar melhores DNA/proteína modelo. " escolha o arquivo que acabou de salvar e abri-lo; isso abrirá uma janela que tem alguns parâmetros que podem ser alterados.
3. Usar os parâmetros padrão, a menos que haja uma razão para mudá-los. Clique " calcular " para começar a análise.
Executar uma análise de máxima verossimilhança (ML) na MEGA.
1. Escolher " árvore de probabilidade máxima de construção/teste " do menu de filogenia.
2. Escolher o modelo determinado a ser o melhor ajuste para os dados da etapa 5.2 (a saída dar-se-á o modelo de substituição, bem como o melhor " taxas entre sites " parâmetro).
3. 1.000 escolher inicialização Replica para obter as medidas de apoio para a árvore.
4. Clique " calcular " para executar a análise; MEGA tem um " Tree Explorer " para visualizar a árvore.
Executar uma análise Bayesiana em MrBayes software open-source ²¹.
Nota: Um manual de MrBayes também está disponível neste site. Este destina-se a fornecer os passos básicos e não é um guia completo para realização de análise filogenética de Bayesian.
1. Exportar o alinhamento de MEGA no formato PAUP (Nexus) na mesma pasta como o programa MrBayes.
2. MrBayes aberto e tipo " exe Filename " (por exemplo, " exe Alignment.nex ").
3. Especificar os parâmetros do modelo e análise. Escolher ou o modelo especificado na etapa 5.2 ou escolher o " misto " configuração que irá experimentar vários modelos e relatar a frequência do modelo nas árvores com as melhores probabilidades posteriores (prset aamodelpr = misto). Tipo " showmodel " para relatar as configurações atuais do modelo e " ajudar mcmc " Mostrar configurações de parâmetro atual, com uma breve explicação de cada um.
4. Definir o número de gerações usando o " mcmcp ngen = " comando (1 milhão é típico).
5. Tipo " mcmc " para começar a análise.
6. Quando o número de gerações foi concluída, o programa irá pedir para adicionar mais gerações. Se o desvio-padrão médio das frequências de divisão é inferior a 0,1, digite n. Se está acima de 0,1, a análise deve ser permitida para continuar, ou alguns parâmetros devem ser alterados (Veja o manual).
7. Uso o " sumt " comando para gerar a árvore de arquivos.
8. Depois que a análise estiver concluída e uma árvore de consenso é gerada, a árvore pode ser visualizada em FigTree (disponível on-line).
Comparar as árvores para ver se os métodos geram resultados consistentes.
Nota: Algumas sequências não fornecem muitas informações: as árvores podem não ser bem resolvidas e os ramos podem ter suporte mínimo ( Figura 10).
Comparar árvores para os grupos identificados usando a referência para ver se estes grupos de apoio as análises filogenéticas.

Resultados

Grupos de sequências na superfamília CS-αβ relatados na literatura são mostrados na Figura 4. Os pares de cisteína baseados a numeração para cada sequência de sugerem cinco grupos básicos (tabela 1, coluna do meio). Grupo 1 tem seis cisteínas que de bissulfeto de três títulos e inclui sequências de insetos, aracnídeos, moluscos, nematoides e fungos. Grupos 2, 3 e 4 têm 8 cisteínas que formam quatro ligações de bissulfeto. Grupo 2 inclui insetos, aracnídeos e sequências de planta; Grupo 3 inclui aracnídeo, molusco e sequências de nematoides; e grupo 4 inclui sequências de cnidários, Anelídeos, moluscos e fungos. Grupo 5 inclui as 10 macins de cisteína. Algumas sequências não couberam bastante esses padrões, mas eram geralmente mais perto de um grupo do que os outros.

Os grupos 1 e 2 parecem partilhar duas obrigações: C2-C5 e C6-C3; no entanto, começando a numeração de cada sequência com sua primeira cisteína não reconhece o contexto estrutural das obrigações. C2-C5 no grupo 1 sequências formas um dos dois títulos em motivo de CSH, enquanto C2-C5 no grupo 2 sequências forma a ligação final necessária para estabilizar a dobra de CS-αβ. O laço homólogo para o grupo 1 C2-C5 é grupo2 C3-C6, que não é evidente a partir da numeração. Também não é óbvio que no grupo 3, o vínculo de C2-C6 desempenha o mesmo papel estrutural.

Usar sequências da literatura gerada uma referência com um total de dez cisteínas. O motivo do CSH é formado por títulos C8-C3 e C4-C9, com C6-C2 completando a dobra de CS-αβ. Renumerar os pares de cisteína baseados os números de referência esclarece os títulos presentes em cada sequência (tabela 1, coluna da direita). Agora é óbvio que todas as sequências de C2-C6, C8-C3 e C4-C9, refletindo a dobra estrutural que define a superfamília. O uso de uma referência permite fácil comparação entre sequências que possuem nomenclatura inconsistente e critérios de classificação ambígua. Também pode ajudar a identificar as características que definem um subgrupo de sequências. Por exemplo, o laço de C1-C7 pode diferenciar macins de outros membros da superfamília, tornando-o adequado para classificar sequências com este vínculo como "macins" ao invés de "defensinas" (tabela 1 e Figura 4).

Buscas de bases de dados on-line públicas revelaram dezasseis sequências de tardigrades claramente com o CS-αβ dobre, oito de Hypsibius dujardini e Milnesium tardigradum. Quatro das novas sequências têm seis cisteínas, nove já oito anos, um tem nove anos e dois têm 10 anos. Isto dá muito pouca informação, mas alinhando as sequências para a referência, torna-se claro que tardigrade sequências com o mesmo número de cisteínas nem sempre têm as cisteínas estruturalmente importante no mesmo lugar dentro da sequência ( Figura 5 e Figura 6). O alinhamento com a referência também permite a inferência de ligação padrões (tabela 2, inferir padrões de ligação mostrados entre parênteses). Algumas das sequências tardigrade claramente cabem padrões 1-4. Outros são mais semelhantes o proposta ancestral bacteriano, Escorpião Cl-toxina ou uma família de fungos defensina-como peptides. Padrão 2 pode ter dois subgrupos, um representado por Escorpião Na + toxinas, drosomycin e defensinas de plantas e o outro escorpião Cl-toxinas. É necessário mais trabalho investigando a função das proteínas tardigrade para determinar se alguns devem ser consideradas as toxinas, ao invés de defensinas.

Análises filogenéticas são frequentemente usadas para estudar como um grupo de proteínas pode ter evoluído. As sequências da superfamília de CS-αβ são geralmente curtos e altamente divergentes; resultante de árvores muitas vezes são mal resolvidas e oferecem pouca introspecção. Árvores do ML e Bayesiana para o subconjunto de sequências analisadas aqui foram mal resolvidas, com baixo suporte para muitos clados (Figura 10, complementar arquivos 1 - 4). É prática comum para mostrar apenas os níveis de inicialização mais de 70 (ou probabilidades posteriores sobre 0,7), mas Figura 10 retém todos os números para demonstrar os total de baixos níveis de apoio. Cinco grupos foram apoiados acima 70/0.7 em pelo menos uma das duas árvores: (a) um 6C e toxina Escorpião 8C; (b) macins; (c) carrapato e defensinas de Escorpião; (d) planta defensinas; e (e) 6C defensinas de moluscos, insetos e aracnídeos. Na árvore do ML, clado e também inclui uma toxina 8C e um 8C tardigrade defensina, mas apoio era muito baixo (Figura 10A). Em geral, estes refletem as categorias identificadas usando a numeração de cisteína de referência mas também mostram que sequências com números de cisteína diferentes dentro de um grupo taxonômico grande podem ser mais estreitamente relacionadas do que sequências com o mesmo padrão de diferentes grupos. Enquanto apenas um pequeno número de sequências foram utilizado neste estudo, uma maior análise de 250 sequências não eliminar a falta de resolução (complementar de arquivos de 5 - 8)¹². O alinhamento de referência de planilha pode oferecer mais fácil visualização das semelhanças com relevância estrutural ou funcional, em comparação com árvores filogenéticas.

figure-results-5821
Figura 1: Definição de sequência e características estruturais da superfamília CS-αβ. Estrutura 3D e aminoácidos são codificados por cores: laço (azul), alfa-hélice (verde), beta-folhas (ouro) e ligações de bissulfeto (rosa). Clique aqui para ver uma versão maior desta figura.

figure-results-6384
Figura 2: Prejudicial de seis-cisteína baseado na sequência de inseto defensina. As colunas indicam as cisteínas conservadas (C1-C6) e, por motivo de CSH, o número de conservada amino ácidos entre as cisteínas. As caixas cheias indicam que a sequência a cisteína determinada e os números indicam aminoácidos entre as cisteínas. Clique aqui para ver uma versão maior desta figura.

er.Within-página = "1" > figure-results-7116

Figura 3: Refinado dez-cisteína referência com base em sequências representativas de grupos da superfamília CS-αβ. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo) e Plantae (verde). Clique aqui para ver uma versão maior desta figura.

figure-results-7942
Figura 4 : Resumo de CS-αβ superfamília sequências alinhadas com referência pelas características do grupo. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Annelida (vermelho escuro), Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), fungos (verde claro), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo) e Plantae (verde). Números separados por um traço indicam uma gama de aminoácidos intermediárias; números separados por uma barra representam ou / ou. Um "C" indica uma cisteína adicional que não ocorre com bastante frequência para justificar a adição à referência. Clique aqui para ver uma versão maior desta figura.

figure-results-9059
Figura 5 : Adição de sequências Tardigrade CS-αβ para alinhamento da superfamília com referência pelas características do grupo. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Annelida (vermelho escuro), Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), fungos (verde claro), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo), Plantae (verde) e Tardigrada (amarelo). Números separados por um traço indicam uma gama de aminoácidos intermediárias; números separados por uma barra representam ou / ou. Um "C" indica uma cisteína adicional que não ocorre com bastante frequência para justificar a adição à referência. Clique aqui para ver uma versão maior desta figura.

figure-results-10219
Figura 6: Adição de sequências Tardigrade CS-αβ para alinhamento da superfamília com referência por grupo taxonômico. As colunas indicam cisteínas conservadas e os aminoácidos entre eles. Cisteínas, contribuindo para o motivo CSH (C3, C4, C8 e C9) e para a dobra de CS-αβ (C2 e C6) são rotuladas. As sequências são codificados por cores por grupo taxonômico: Annelida (vermelho escuro), Arachnida (luz laranja), bactérias (preto), Cnidaria (cinza), fungos (verde claro), Hexapoda (laranja), Mollusca (azul), Nematoda (roxo), Plantae (verde) e Tardigrada (amarelo). Números separados por um traço indicam uma gama de aminoácidos intermediárias; números separados por uma barra representam ou / ou. Um "C" indica uma cisteína adicional que não ocorre com bastante frequência para justificar a adição à referência. Clique aqui para ver uma versão maior desta figura.

figure-results-11368
Figura 7: Sequência desalinhada usando automatizado alinhamento. Conservados em todas as sequências de aminoácidos são indicados por * na linha acima a primeira sequência (esboçada em caixas-de-rosa). AlCRP está desalinhado. A diferença precisa ser removido para alinhar corretamente o C (seta cor de rosa). Clique aqui para ver uma versão maior desta figura.

figure-results-12013
Figura 8: Manual refinamento do alinhamento preserva as características estruturalmente importantes das sequências. AlCRP agora está alinhada corretamente (seta cor de rosa), e o motivo do CXXXC é totalmente conservado para as sequências (caixas-de-rosa). Clique aqui para ver uma versão maior desta figura.

figure-results-12606
Figura 9 : Sequências redundantes em um alinhamento. Se há pares de sequências quase idênticas (caixas-de-rosa), um pode ser removido, uma vez que estes serão provavelmente sempre cluster juntos em e contribuem pouco para a topologia geral da árvore. Clique aqui para ver uma versão maior desta figura.

figure-results-13194
Figura 10 : Comparação das árvores gerados a partir de análises filogenéticas. Máximo (A) análise de probabilidade na MEGA, com 1.000 bootstrap Replica usando o WAG + G + modelo. (B) análise Bayesiana com 1.000.000 gerações usando a configuração de modelo misto. Clados suportados no 70/0,7 são mostrados em linhas sólidas de rosa; linhas tracejadas Rosa mostram clados suportados no 70/0,7 na outra árvore. b a C de 6 e uma toxina de Escorpião 8C; (b) macins; (c) carrapato e defensinas de Escorpião; (d) planta defensinas; e (e) 6C defensinas de moluscos, insetos e aracnídeos. Clique aqui para ver uma versão maior desta figura.

figure-results-14148
Tabela 1: grupos dentro da superfamília de CS-αβ baseiam em padrões de cisteína-emparelhamento. Cinco padrões básicos de formação de ligação são mostrados usando números internos (coluna do meio) ou números de referência (coluna direita). Escorpião Cl - toxinas, ASABF 6Cys-alfa e um grupo de péptidos fúngicos são colocados com o padrão que mOST se aproxima. Uma cisteína não incluída na referência é indicada por um sobrescrito de cisteínas os antes/depois (e.g., C^3/4é entre C3 e C4).

figure-results-14804
Tabela 2: adição de CS-αβ Tardigrade sequências de cisteína-emparelhamento padrão grupos. Tardigrade defensinas e macins (negrito) são colocados nos grupos previamente estabelecidos, sempre que possível. Algumas sequências tardigrade podem mostrar um padrão específico de grupo. Uma cisteína não incluída na referência é indicada por um sobrescrito de cisteínas os antes/depois (e.g., C^3/4é entre C3 e C4). A notação "2C¹" indica que existem duas cisteínas montante de referência C1.

Complementar arquivo 1 (S1): alinhamento deste Dataset em MEGA. Clique aqui para baixar este arquivo.

Arquivo complementar 2 (S2): árvore de máxima probabilidade MEGA arquivo para este Dataset. Clique aqui para baixar este arquivo.

Arquivo complementar 3 (S3): alinhamento deste Dataset no formato Nexus para MrBayes. Clique aqui para baixar este arquivo.

Arquivo complementar 4 (S4): arquivo de consenso da análise MrBayes deste Dataset. Clique aqui para baixar este arquivo.

Arquivo complementar 5 (S5): alinhamento de 250 CS-αβ sequências em MEGA. Clique aqui para baixar este arquivo.

Complementar arquivo 6 (S6): árvore de probabilidade máxima de 250 sequências de CS-αβ. Clique aqui para baixar este arquivo.

Arquivo complementar 7 (S7): alinhamento de 250 CS-αβ sequências em Nexus Formatar para MrBayes. Clique aqui para baixar este arquivo.

Arquivo complementar 8 (S8): arquivo de consenso da análise de 250 sequências de CS-αβ MrBayes. Clique aqui para baixar este arquivo.

Discussão

Os critérios para a nomeação de uma proteína dentro de um grupo devem ser claros, mas isso não é sempre o caso. Sequências que têm o CS-αβ dobre têm sido estudadas em muitos laboratórios usando uma variedade de organismos, resultando em diferentes sistemas de nomenclatura, bem como diferentes níveis de caracterização. A tentativa de impor uma completamente nova nomenclatura não é razoável e resultaria em uma grande quantidade de confusão quando consultar a literatura anterior. Uma sistema de numeração de referência pode ser usada para além do nome de uma proteína para esclarecer suas características em relação a superfamília.

Grupos de proteínas com critérios claros para não provavelmente de nomenclatura e classificação vai beneficiam gerando uma referência em uma planilha, embora possa ser útil para resumir grandes números de sequências e visualização de características importantes. Logotipos e alinhamentos de sequência são úteis para investigar o nível de conservação em cada local, mas não ativamente priorizar recursos sequência importantes para a estrutura ou função. O exemplo de CS-αβ focada na estrutura, mas aminoácidos específicos que formam um sítio de ligação também pode ser incorporados como uma característica definidora. Como são identificados os recursos de sequência que conferem actividades específicas de antimicrobianos/tóxico de peptídeos de CS-αβ, estas podem ser adicionadas à referência para esclarecer grupos com base em atividade. Embora apenas os peptídeos maduros previstos foram usados neste exemplo, se a presença de um peptídeo sinal ou pro-peptídeo é importante, essa informação pode ser adicionada para cada sequência. Inserção específica ou eventos de exclusão, bem como locais de intrão, também podem ser incluídos se eles são pensados para ser informativo. Uma vantagem de usar MrBayes para a análise filogenética é que ele não é limitado a dados molecular que pode analisar dados de codificação para outras características que podem ter importância evolutiva. Estes podem ser codificados como presentes ou ausentes, fornecendo mais informações do que a sequência sozinha.

Coletar as sequências relevantes é uma etapa crítica do protocolo. Dependendo do escopo do estudo e a distribuição dos membros do grupo, este pode abranger grandes grupos taxonômicos. Se o objetivo é compreender todo um grupo de proteínas, considere que algumas sequências podem ser encontradas fora as espécies que eles geralmente são relatados de. Se um taxon é já bem representado e sequências adicionais são improváveis ou redundantes, excluindo-os da busca pode ser apropriado. Base-de-regra para recuperar hits em uma busca de explosão é usar uma interrupção de -05 para o e-valor. E o valor é o número de acertos esperado por acaso. Enquanto isto é apropriado para algumas situações, se houver um grupo de sequências que é altamente divergente mas ações características específicas, pode ser menos confiável que pode recuperar as sequências que são semelhantes, mas fazer não querer as características específicas, e não pode retorne sequências que têm as características principais, mas que são muito divergentes. Existem algumas maneiras possíveis de abordar esta questão. A primeira é olhar para as sequências identificadas na pesquisa que estão abaixo do Cut-off-05 para ver se eles atendem aos critérios de inclusão. Em segundo lugar, se há informações suficientes, use explosão de iterada de posição específica (PSI-BLAST)²² ou padrão-Hit iniciada BLAST (PHI-BLAST)²³. PSI-BLAST usa os resultados de uma pesquisa inicial para gerar um novo modelo para a próxima rodada e pode às vezes encontrar sequências divergentes que a busca inicial não se identificar. PHI-explosão requer um padrão a ser enviada junto com a sequência de consulta. Isso restringe as sequências obtidas para aqueles que contêm o padrão de interesse. Esta ferramenta é especialmente útil se um tema exclusivo para o grupo pode ser claramente identificado.

Um alinhamento exato é crítico para análise filogenética; interpretações de árvores só são válidas se eles são gerados usando o bom alinhamento. Usando a referência para informar o alinhamento pode ajudar a evitar erros que só são evidentes quando a estrutura ou atividade são considerados. Redundância de sequência precisará ser definida para o projeto. Duas sequências que parecem redundantes podem não ser para fins filogenéticas se eles são de táxons amplamente divergentes ou são quase idênticos em sequência, mas têm diferentes propriedades estruturais ou funcionais. Se houver ambiguidade sobre os quais as sequências devem ser incluídas, alinhamentos múltiplos podem ser gerados e analisados separadamente para ver como o alinhamento muda inferências filogenéticas de impacto. O método apresentado aqui não elimina a necessidade para o ajuste manual dos alinhamentos, mas pode ajudar a esclarecer como as sequências devem estar alinhados e possivelmente poderiam ser usadas em conjunto com uma técnica mais sofisticada de código de barras do que tem sido descrito anteriormente a¹³.

Para a referência a ser útil, é importante identificar as características definidoras que não são óbvias no momento da sequência de sozinho. Por exemplo, considere a incapacidade de comparar cisteína ligação padrões entre sequências com números diferentes de cisteínas quando cada sequência é numerada com respeito a mesmo. O objetivo é facilitar a comparação e discussão, para não adicionar outra camada de confusão. Isso pode envolver várias iterações da referência e chamadas de julgamento para decidir quais recursos para incluir. Espera-se que adotar um método comum de discutir sequências divergentes em um grupo irá aumentar o entendimento do grupo como um todo.

Divulgações

O autor não tem nada para divulgar.

Agradecimentos

Investigação em curso tardigrade peptídeo antimicrobiano é suportada pelo intramural de financiamento do centro-oeste Universidade escritório de pesquisa e programas patrocinados (ORSP). O ORSP não tinha qualquer papel no projeto de estudo, coleta de dados, análise, interpretação ou preparação do manuscrito.

Materiais

Name	Company	Catalog Number	Comments
BLAST webpage			https://blast.ncbi.nlm.nih.gov/Blast.cgi
EditSeq (Lasergene suite)	DNASTAR		https://www.dnastar.com/t-allproducts.aspx
Excel 2013	Microsoft
FigTree			http://tree.bio.ed.ac.uk/software/figtree/
MEGA			www.megasoftware.net
MrBayes			http://mrbayes.sourceforge.net/
SCOP database			http://scop.mrc-lmb.cam.ac.uk/scop/

Referências

Matsuyama, K., Natori, S. Purification of Three Antibacterial Proteins from the Culture Medium of NIH-Sape-4, an Embryonic Cell Line of Sarcophaga peregrina. J Biol Chem. 263 (32), 17112-17116 (1988).
Lambert, J., et al. Insect immunity: Isolation from immune blood of the dipteran Phormia terranovae. of two insect antibacterial peptides with sequence homology to rabbit lung macrophage bactericidal peptides. PNAS. 86 (262-266), (1989).
Dimarcq, J. -. L., Bulet, P., Hetru, C., Hoffmann, J. Cysteine-rich antimicrobial peptides in invertebrates. Biopolymers. 47, 465-477 (1998).
Shafee, T. M. A., Lay, F. T., Hulett, M. D., Anderson, M. A. The Defensins Consist of Two Independent, Convergent Protein Superfamilies. Mol Biol Evol. 33 (9), 2345-2356 (2016).
Zhu, S., Gao, B. Nematode-derived drosomycin-type antifungal peptdies provide evidence for plant-to-ecdysozoan horizontal transfer of a disease resistance gene. Nat Commun. 5, (2014).
Zhu, S., Gao, B. Evolutionary origin of b-defensins. Dev. Comp. Immunol. 39, 79-84 (2013).
Bonmatin, J. -. M., et al. Two-dimensional 1H NMR study of recombinant insect defensin A in water: Resonance assignments, secondary structure and global folding. J Biomol NMR. 2 (3), 235-256 (1992).
Cornet, B., et al. Refined three-dimensional solution structure of insect defensin A. Structure. 3 (5), 435-448 (1995).
Murzin, A. G., Brenner, S. E., Hubbard, T., Chothia, C. SCOP: a structural classification of proteins database for the investigations of sequences and structures. J Mol Biol. 247, 536-540 (1995).
Sillitoe, I., et al. CATH: comprehensive structural and functional annotations for genome sequences. Nucleic Acids Res. 43, 376-381 (2015).
Lam, S. D., et al. Gene3D: expanding the utility of domain assignments. Nucleic Acids Res. 44, 404-409 (2016).
Tarr, D. E. K. Establishing a reference array for the CS-ab superfamily of defensive peptides. BMC Res Notes. 9, 490 (2016).
Shafee, T. M. A., Robinson, A. J., van der Weerden, N., Anderson, M. A. Structural homology guided alignment of cysteine rich proteins. SpringerPlus. 5 (27), (2016).
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic Local Alignment Search Tool. J Mol Biol. 215 (3), 403-410 (1990).
Duckert, P., Brunak, S., Blom, N. Prediction of proprotein convertase cleavage sites. Protein Eng Des Sel. 17 (1), 107-112 (2004).
Petersen, T. N., Brunak, S., von Heijne, G., Nielsen, H. SignalP 4.0:discriminating signal peptides from transmembrane regions. Nat Methods. 8, 785-786 (2011).
Kobayashi, Y., et al. The cysteine-stabilized a-helix: A common structural motif of ion-channel blocking neurotoxic peptides. Biopolymers. 31, 1213-1220 (1991).
Gao, B., del Carmen Rodriguez, M., Lanz-Mendoza, H., Zhu, S. AdDLP, a bacterial defensin-like peptide, exhibits anti-Plasmodium. activity. Biochem Biophys Res Commun. 387, 393-398 (2009).
Tamura, K., Stecher, G., Peterson, D., Filipski, A., Kumar, S. MEGA6: Molecular Evolutionary Genetics Analysis. Mol Biol Evol. 30 (12), 2725-2729 (2013).
Edgar, R. C. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32 (5), 1792-1797 (2004).
Ronquist, F., Huelsenbeck, J. P. MrBayes 3: Bayesian phylogenetic inference under mixed models. Bioinformatics. 19 (12), 1572-1574 (2003).
Altschul, S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25 (17), 3389-3402 (1997).
Zhang, Z., et al. Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res. 26 (17), 3986-3990 (1998).

Reimpressões e Permissões

Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE

Solicitar Permissão

Explore Mais Artigos

Comportamento edi o 126 superfam lia de prote nas nomenclatura de prote na classifica o de prote na alinhamento de sequ ncias filogenia defensinas invertebradas superfam lia CS

This article has been published

Video Coming Soon

Keep me updated: