Method Article
O objetivo deste protocolo é investigar a evolução e expressão dos genes candidatos usando dados de sequenciamento de RNA.
Destilar e relatar grandes conjuntos de dados, como dados de genoma inteiro ou transcriptome, é muitas vezes uma tarefa assustadora. Uma maneira de quebrar resultados é focar em uma ou mais famílias genéticas que são significativas para o organismo e estudar. Neste protocolo, delineamos etapas bioinformáticas para gerar uma filogenia e quantificar a expressão de genes de interesse. As árvores filogenéticas podem dar uma visão de como os genes estão evoluindo dentro e entre espécies, bem como revelar ortologia. Esses resultados podem ser aprimorados usando dados de RNA-seq para comparar a expressão desses genes em diferentes indivíduos ou tecidos. Estudos de evolução molecular e expressão podem revelar modos de evolução e conservação da função genética entre espécies. A caracterização de uma família genética pode servir de trampolim para estudos futuros e pode destacar uma importante família genética em um novo genoma ou papel transcriptome.
Os avanços nas tecnologias de sequenciamento facilitaram o sequenciamento de genomas e transcriptomes de organismos não-modelos. Além da maior viabilidade do sequenciamento do DNA e do RNA de muitos organismos, uma abundância de dados está disponível publicamente para estudar genes de interesse. O objetivo deste protocolo é fornecer passos bioinforáticos para investigar a evolução molecular e a expressão de genes que possam desempenhar um papel importante no organismo de interesse.
Investigar a evolução de um gene ou gene familiar pode fornecer uma visão da evolução dos sistemas biológicos. Membros de uma família genética são tipicamente determinados pela identificação de motivos conservados ou sequências genéticas homólogos. A evolução da família genética foi previamente investigada usando genomas de organismos modelos distantes1. Uma limitação para essa abordagem é que não está claro como essas famílias genéticas evoluem em espécies intimamente relacionadas e o papel de diferentes pressões seletivas ambientais. Neste protocolo, incluímos uma busca por homólogos em espécies intimamente relacionadas. Ao gerar uma filogenia a um nível de filogênio, podemos notar tendências na evolução da família genética, como a de genes conservados ou duplicações específicas de linhagem. Neste nível, também podemos investigar se genes são ortologs ou paralogs. Embora muitos homólogos provavelmente funcionem de forma semelhante entre si, isso não é necessariamente o caso2. A incorporação de árvores filogenéticas nesses estudos é importante para resolver se esses genes homólogos são ortologs ou não. Nos eucariotes, muitos ortologos mantêm funções semelhantes dentro da célula, como evidenciado pela capacidade das proteínas mamíferas de restaurar a função dos ortologs de levedura3. No entanto, há casos em que um gene não ortologos realiza uma função caracterizada4.
As árvores filogenéticas começam a delinear relações entre genes e espécies, mas a função não pode ser atribuída apenas com base nas relações genéticas. Estudos de expressão genética combinados com anotações funcionais e análise de enriquecimento fornecem forte suporte para a função genética. Casos em que a expressão genética pode ser quantificada e comparada entre indivíduos ou tipos de tecidos podem ser mais reveladores da função potencial. O protocolo a seguir segue métodos usados na investigação de genes de opsina em Hydra vulgaris7, mas eles podem ser aplicados a qualquer espécie e qualquer família genética. Os resultados desses estudos fornecem uma base para uma investigação mais aprofundada sobre a função genética e redes genéticas em organismos não-modelo. Como exemplo, a investigação da filogenia das opsinas, que são proteínas que iniciam a cascata de fototransdução, dá contexto à evolução dos olhos e da detecção de luz8,9,10,11. Neste caso, organismos não-modelos, especialmente espécies de animais basais, como cnidários ou ctenoforos, podem elucidar a conservação ou alterações na cascata de fototransdução e na visão através de claes12,13,14. Da mesma forma, determinar a filogenia, expressão e redes de outras famílias genéticas nos informará sobre os mecanismos moleculares subjacentes às adaptações.
Este protocolo segue as diretrizes de cuidados com animais da UC Irvine.
1. Preparação da biblioteca RNA-seq
2. Acesse um cluster de computador
NOTA: A análise do RNA-seq requer manipulação de arquivos grandes e é melhor feita em um cluster de computador(Tabela de Materiais).
3. Obter leituras de RNA-seq
4. Aparar adaptadores e leituras de baixa qualidade (opcional)
5. Obter montagem de referência
6. Gerar um conjunto de novo (Alternativa ao Passo 5)
7. Mapa lê para o genoma (7.1) ou de novo transcriptome (7.2)
8. Identificar genes de interesse
NOTA: As seguintes etapas podem ser feitas com arquivos nucleotídeos ou proteínas FASTA, mas funcionam melhor e são mais simples com sequências proteicas. Pesquisas de BLAST usando proteína para proteína são mais propensas a dar resultados na busca entre diferentes espécies.
9. Árvores filogenéticas
10. Visualize a expressão genética usando TPM
Os métodos acima são resumidos na Figura 1 e foram aplicados a um conjunto de dados de tecidos hydra vulgaris. H. vulgaris é um invertebrado de água doce que pertence ao filo Cnidaria que também inclui corais, águas-vivas e anêmonas do mar. H. vulgaris pode se reproduzir assexualmente brotando e eles podem regenerar a cabeça e o pé quando bissecto. Neste estudo, buscou-se investigar a evolução e expressão dos genes opsin na Hydra7. Enquanto a Hydra não tem olhos, eles exibem comportamento dependente da luz32. Genes opsina codificam proteínas que são importantes na visão para detectar diferentes comprimentos de onda de luz e iniciar a cascata de fototransdução. Investigar a evolução molecular e a expressão desta família genética em uma espécie basal pode fornecer uma visão sobre a evolução dos olhos e a detecção de luz em animais.
Geramos um conjunto guiado utilizando o genoma de referência Hydra2.0 33 e dados RNA-seq disponíveis publicamente (GEO adesão GSE127279) Figura 1. Este passo levou aproximadamente 3 dias. Embora não tenhamos gerado um transcriptome de novo neste caso, uma montagem trinity pode levar até 1 semana para gerar e cada biblioteca pode levar algumas horas para ler mapeamento dependendo do mapeador. O conjunto Hydra mesclado (~50.000 transcrições) foi anotado usando blast2GO que levou cerca de 1 semana Figura 1. Sequências para genes relacionados com a opsina foram extraídas em um arquivo fasta. Sequências para genes de opsina de outras espécies também foram extraídas do NCBI GenBank. Usamos opsinas dos cnidarianos Podocoryna carnea, Cladonema radiatum, Tripedelia cystophorae Nematostella vectensis,e também incluímos os grupos Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster e Homo sapiens. Os genes opsin foram alinhados na Figura 2 MEGA7. Ao visualizar o alinhamento, conseguimos identificar as opsinas hydra que estavam faltando um aminoácido de lisina conservado necessário para ligar uma molécula sensível à luz. Após inspeção visual, determinamos o melhor modelo fazendo uma análise de seleção de modelos. Geramos uma árvore de máxima probabilidade usando o modelo LG + G + F com valor bootstrap de 100 Figura 3. Para 149 genes de opsina, a árvore foi concluída em aproximadamente 3 dias. A filogenia sugere que os genes de opsina estão evoluindo por duplicações específicas de linhagem em cnidários e potencialmente por duplicação em H. vulgaris7.
Realizamos uma análise de expressão diferencial no edgeR e olhamos para a expressão absoluta dos genes opsin. Nós imaginamos que uma ou mais opsinas seriam reguladas na cabeça (hipostome) e realizamos comparações par-wise de hipostome versus coluna corporal, zona de brotação, pé e tentáculos. Como exemplo de comparação par-wise, 1.774 transcrições foram expressas diferencialmente entre o hipostome e a coluna corporal. Determinamos os genes que foram regulados em várias comparações e fizemos um enriquecimento funcional na Tabela Blast2GO 1. O agrupamento da atividade receptora acoplado à proteína G incluiu genes de opsina. Finalmente, analisamos a expressão absoluta dos genes opsin em diferentes tecidos, durante a brotação e durante a regeneração, plotando seus valores TPM usando ggplot Figura 4. Usando os métodos aqui descritos, identificamos 2 genes de opsina que não se agrupavam com as outras opsinas na filogenia, encontramos uma opsina que foi expressa quase 200 vezes mais do que outras, e encontramos alguns genes opsin co-expressos com genes de fototransdução que podem ser usados para detecção de luz.
Figura 1: Esquema de fluxo de trabalho. Os programas usados para analisar dados no cluster do computador estão em azul, em magenta são aqueles que usamos em um computador local e em laranja é um programa baseado na Web. (1) Aparar as leituras de RNA-seq utilizando trimmomatic v. 0.35. Se um genoma estiver disponível, mas faltam modelos genéticos, gere um conjunto guiado usando STAR v. 2.6.0c e StringTie v. 1.3.4d. (Opcionais ver Materiais Suplementares) (2) Sem um genoma de referência, use leituras aparadas para fazer um novo conjunto usando Trinity v 2.8.5. (3) Para quantificar a expressão genética usando um genoma de referência, o mapa lê usando STAR e quantifica usando RSEM v. 1.3.1. Extrair TPMs usando RSEM e visualizá-los em RStudio. (4) Bowtie e RSEM podem ser usados para mapear e quantificar leituras mapeadas para um transcriptome de trindade. Um script Trinity pode ser usado para gerar uma matriz TPM para visualizar contagens no RStudio. (5) Use o NCBI BLAST baseado na Web e a linha de comando BLAST+ para procurar sequências homólogas e confirmar usando blast recíproco. Anote ainda mais os genes usando o Blast2GO. Use MEGA para alinhar genes e gerar uma árvore filogenética usando o modelo de melhor ajuste. Clique aqui para ver uma versão maior desta figura.
Figura 2: Exemplo de genes alinhados. Snapshot mostra uma porção de genes de operasina Hydra alinhados usando MUSCLE. A seta indica a localização de uma lise conservada de ligação de retina. Clique aqui para ver uma versão maior desta figura.
Figura 3: Árvore filogenética de opsina cnidária. Árvore de maior probabilidade gerada em MEGA7 usando sequências de opsina de Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster e Homo sapiens. Clique aqui para ver uma versão maior desta figura.
Figura 4: Expressão de genes opsinas em Hydra vulgaris. (A) Expressão em transcrições por milhão (TPM) de genes de hydra vulgaris opsin na coluna corporal, zona brotante, pé, hipostome e tentáculos. (B) Expressão de genes de opsina durante diferentes estágios de brotamento de Hydra. (C) Expressão de genes opsina do hipostome Hydra durante diferentes pontos de tempo de regeneração. Clique aqui para ver uma versão maior desta figura.
GO ID | GO Name | Categoria GO | Fdr |
0004930 | Atividade do receptor acoplado à proteína G | FUNÇÃO MOLECULAR | 0.0000000000704 |
0007186 | Caminho de sinalização do receptor acoplado à proteína G | PROCESSO BIOLÓGICO | 0.00000000103 |
0016055 | Caminho de sinalização WNT | PROCESSO BIOLÓGICO | 0.0000358 |
0051260 | homooligomerização proteica | PROCESSO BIOLÓGICO | 0.000376 |
0004222 | atividade metalloendopeptidase | FUNÇÃO MOLECULAR | 0.000467 |
0008076 | complexo de canais de potássio fechados por tensão | COMPONENTE CELULAR | 0.000642 |
0005249 | atividade do canal de potássio fechado por tensão | FUNÇÃO MOLECULAR | 0.00213495 |
0007275 | desenvolvimento de organismos multicelulares | PROCESSO BIOLÓGICO | 0.00565048 |
0006813 | transporte de íons de potássio | PROCESSO BIOLÓGICO | 0.01228182 |
0018108 | fosforilação peptidyl-tyrosine | PROCESSO BIOLÓGICO | 0.02679662 |
Tabela 1: Enriquecimento funcional de genes regulados no hipostome
Materiais Suplementares. Clique aqui para baixar esses materiais.
O objetivo deste protocolo é fornecer um esboço das etapas para caracterizar uma família genética usando dados RNA-seq. Estes métodos têm sido comprovados para funcionar para uma variedade de espécies e conjuntos de dados4,34,35. O gasoduto aqui estabelecido foi simplificado e deve ser fácil o suficiente para ser seguido por um novato em bioinformática. O significado do protocolo é que ele delineia todas as etapas e programas necessários para concluir uma análise publicável. Um passo crucial no protocolo é ter devidamente montado transcrições completas, isso vem de genomas de alta qualidade ou transcriptomes. Para obter transcrições adequadas, é preciso RNA de alta qualidade e/ou DNA e boas anotações discutidas abaixo.
Para a preparação da biblioteca RNA-seq, incluímos kits de lista que funcionaram para pequenas partes do corpo da Hydra19 e borboletas18 (Tabela de Materiais). Notamos que para baixo RNA de entrada usamos uma abordagem de protocolo modificada36. Os métodos de extração de RNA foram comparados em vários tipos de amostra, incluindo células de levedura17,neuroblastoma37,plantas38e larvasde insetos 16 para citar alguns. Recomendamos que o leitor adquira um protocolo que funcione para sua espécie de interesse, se houver, ou solucionar problemas usando kits comumente disponíveis comercialmente para começar. Para quantificação genética adequada, recomendamos tratar a amostra de RNA com DNase. A presença de DNA afetará a quantificação genética adequada. Também recomendamos o uso de um kit de preparação para biblioteca cDNA que inclua uma seleção de cauda polyA para selecionar para mRNA maduro. Enquanto o esgotamento do rRNA resulta em mais profundidade de leitura, a porcentagem de cobertura de exon é muito menor do que a cobertura de exon de RNA usando a seleção polyA+39. Finalmente, quando possível é melhor usar end-end emparelhado e encalhado40,41. No protocolo acima, os comandos de mapeamento de leitura terão de ser modificados ao usar leituras de extremidade única.
Como mencionado acima, é importante ser capaz de identificar genes de interesse e também diferenciar entre duplicações genéticas recentes, emendas alternativas e haplotipos no sequenciamento. Em alguns casos, ter um genoma de referência pode ajudar determinando onde genes e exons estão localizados em relação uns aos outros. Uma coisa a notar é que se um transcriptome é obtido de um banco de dados público e não é de alta qualidade, pode ser melhor gerar usando trinity42 e combinando bibliotecas RNA-seq de tecidos de interesse. Da mesma forma, se um genoma de referência não tiver bons modelos genéticos, bibliotecas RNA-seq podem ser usadas para gerar novos GTFs usando StringTie43 (ver Materiais Suplementares). Além disso, nos casos em que os genes estão incompletos e há acesso a um genoma, os genes podem ser editados manualmente usando sequências de homólogos e então alinhados ao genoma usando tblastn. A saída BLAST pode ser usada para determinar a sequência real, que pode ser diferente da correção feita usando homólogos. Se não houver correspondência, deixe a sequência como era originalmente. Ao verificar a saída preste atenção às coordenadas do genoma para ter certeza de que o exon desaparecido é realmente parte do gene.
Embora nos concentremos em softwares e programas que usamos, existem modificações neste protocolo devido a muitos programas disponíveis que podem funcionar melhor para diferentes conjuntos de dados. Como exemplo, mostramos comandos para mapeamento de leituras para o transcriptome usando bowtie e RSEM, mas Trinity agora tem a opção para alinhadores muito mais rápidos como kallisto44 e salmão45. Da mesma forma, descrevemos anotações usando Blast2GO (agora OmicsBox), mas existem outras ferramentas de mapper que podem ser encontradas gratuitas e online. Alguns que tentamos incluem: GO FEAT46, eggNOG-mapper47,48, e um alinhador muito rápido PANNZER249. Para usar essas ferramentas de anotação baseadas na Web, basta carregar o peptídeo FASTA e enviar. Versões autônomas de PANNZER e eggNOG-mapper também estão disponíveis para serem baixadas no cluster do computador. Outra modificação é que usamos MEGA e R em um computador local e usamos a ferramenta NCBI BLAST on-line para fazer BLASTs recíprocos, no entanto, todos esses programas podem ser usados no cluster de computador baixando os programas e bancos de dados necessários. Da mesma forma, os alinhadores kallisto e salmão podem ser usados em um computador local, desde que um usuário tenha RAM e armazenamento suficientes. No entanto, os arquivos FASTQ e FASTA tendem a ser muito grandes e recomendamos usar um cluster de computador para facilitar e acelerar. Além disso, enquanto fornecemos instruções e links para baixar programas de seus desenvolvedores, muitos deles podem ser instalados a partir de bioconda: https://anaconda.org/bioconda.
Um problema comum enfrentado ao fazer análises bioinformáticas é a falha dos scripts de shell. Isso pode ser devido a uma variedade de razões. Se um arquivo de erro for criado, esses arquivos de erro devem ser verificados antes da solução de problemas. Algumas razões comuns para um erro são erros de digitação, parâmetros-chave ausentes e problemas de compatibilidade entre versões de software. Neste protocolo, incluímos parâmetros para os dados, mas os manuais de software podem fornecer diretrizes mais detalhadas para parâmetros individuais. Em geral, é melhor usar as versões mais atualizadas do software e consultar o manual correspondente a essa versão.
Os aprimoramentos deste protocolo incluem a análise de expressão diferencial em todo o transcriptome e a análise de enriquecimento funcional. Recomendamos edgeR50 para análise de expressão diferencial um pacote disponível no Bioconductor. Para análise de enriquecimento funcional, utilizamos o Blast2GO29 e o DAVID51,52. Também recomendamos a edição adicional do filogenia, extraindo-o como um arquivo newick e usando iTOL53baseado na Web . Além disso, enquanto este protocolo investigará os padrões de evolução molecular e expressão dos genes, experimentos adicionais podem ser usados para validar locais e funções genéticas ou proteicas. a expressão mRNA pode ser confirmada por RT-qPCR ou pela hibridização in situ. As proteínas podem ser localizadas usando imunohistoquímica. Dependendo da espécie, experimentos de nocaute podem ser usados para confirmar a função genética. Este protocolo pode ser usado para uma variedade de objetivos, incluindo, como mostrado acima, explorar uma família genética tipicamente associada à fotorrecepção em uma espécie basal7. Outra aplicação desses métodos é identificar mudanças em um caminho conservado sob diferentes pressões seletivas. Como exemplo, esses métodos foram utilizados para descobrir variação na expressão de canais potenciais de receptores transitórios de visão entre borboletas diurnas e mariposas noturnas34.
Os autores não têm nada a revelar.
Agradecemos a Adriana Briscoe, Gil Smith, Rabi Murad e Aline G. Rangel por conselhos e orientações na incorporação de algumas dessas etapas em nosso fluxo de trabalho. Também somos gratos a Katherine Williams, Elisabeth Rebboah e Natasha Picciani por comentários sobre o manuscrito. Este trabalho foi apoiado em parte por uma bolsa de pesquisa médica da Fundação George E. Hewitt para a A.M.M.
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados