Method Article
El propósito de este protocolo es investigar la evolución y expresión de genes candidatos utilizando datos de secuenciación de ARN.
Destilar y reportar grandes conjuntos de datos, como datos de genoma completo o transcriptoma, es a menudo una tarea desalentadora. Una forma de desglosar los resultados es centrarse en una o más familias de genes que son importantes para el organismo y el estudio. En este protocolo, se describen los pasos bioinformáticos para generar una filogenia y cuantificar la expresión de genes de interés. Los árboles filogenéticos pueden dar una idea de cómo los genes están evolucionando dentro y entre las especies, así como revelar la ortología. Estos resultados se pueden mejorar utilizando datos de ARN-seq para comparar la expresión de estos genes en diferentes individuos o tejidos. Los estudios de evolución molecular y expresión pueden revelar modos de evolución y conservación de la función génica entre especies. La caracterización de una familia de genes puede servir como trampolín para futuros estudios y puede destacar una familia de genes importante en un nuevo genoma o transcriptoma.
Los avances en las tecnologías de secuenciación han facilitado la secuenciación de genomas y transcriptomas de organismos no modelo. Además de la mayor viabilidad de secuenciar adn y ARN de muchos organismos, una gran cantidad de datos está disponible públicamente para estudiar genes de interés. El propósito de este protocolo es proporcionar pasos bioinformáticos para investigar la evolución molecular y la expresión de genes que pueden desempeñar un papel importante en el organismo de interés.
Investigar la evolución de un gen o familia de genes puede proporcionar información sobre la evolución de los sistemas biológicos. Los miembros de una familia de genes se determinan típicamente mediante la identificación de motivos conservados o secuencias de genes homólogos. La evolución de la familia génica se investigó previamente utilizando genomas de organismos modelo distantemente relacionados1. Una limitación a este enfoque es que no está claro cómo evolucionan estas familias de genes en especies estrechamente relacionadas y el papel de las diferentes presiones selectivas ambientales. En este protocolo, incluimos una búsqueda de homólogos en especies estrechamente relacionadas. Al generar una filogenia a nivel de filo, podemos observar tendencias en la evolución de la familia de genes como la de genes conservados o duplicaciones específicas de linaje. En este nivel, también podemos investigar si los genes son ortólogos o parálogos. Si bien es probable que muchos homólogos funcionen de manera similar entre sí, ese no es necesariamente el caso2. La incorporación de árboles filogenéticos en estos estudios es importante para determinar si estos genes homólogos son ortólogos o no. En los eucariotas, muchos ortólogos conservan funciones similares dentro de la célula, como lo demuestra la capacidad de las proteínas de mamíferos para restaurar la función de los ortólogos de levadura3. Sin embargo, hay casos en los que un gen no ortólogo realiza una función caracterizada4.
Los árboles filogenéticos comienzan a delinear las relaciones entre los genes y las especies, sin embargo, la función no se puede asignar únicamente en función de las relaciones genéticas. Los estudios de expresión génica combinados con anotaciones funcionales y análisis de enriquecimiento proporcionan un fuerte apoyo para la función génica. Los casos en los que la expresión génica se puede cuantificar y comparar entre individuos o tipos de tejidos pueden ser más reveladores de la función potencial. El siguiente protocolo sigue los métodos utilizados en la investigación de los genes de opsina en Hydra vulgaris7,pero se pueden aplicar a cualquier especie y cualquier familia de genes. Los resultados de tales estudios proporcionan una base para la investigación adicional en la función del gen y las redes del gene en organismos no-modelo. A modo de ejemplo, la investigación de la filogenia de las opsinas, que son proteínas que inician la cascada de fototransducción, da contexto a la evolución de los ojos y la detección de la luz8,9,10,11. En este caso, los organismos no modelo, especialmente las especies animales basales como los cnidarios o los ctenophores, pueden dilucidar la conservación o los cambios en la cascada de fototransducción y la visión a través de los clados12,13,14. Del mismo modo, la determinación de la filogenia, expresión y redes de otras familias de genes nos informará sobre los mecanismos moleculares subyacentes a las adaptaciones.
Este protocolo sigue las pautas de cuidado de animales de UC Irvine.
1. Preparación de la biblioteca de ARN-seq
2. Acceder a un clúster de computadoras
NOTA: El análisis de ARN-seq requiere la manipulación de archivos grandes y se realiza mejor en un clúster de computadoras(Tabla de materiales).
3. Obtener lecturas de ARN-seq
4. Adaptadores de recorte y lecturas de baja calidad (opcional)
5. Obtener el ensamblado de referencia
6. Generar un ensamblaje de novo (Alternativa al Paso 5)
7. Mapa de lecturas del genoma (7.1) o transcriptoma de novo (7.2)
8. Identificar genes de interés
NOTA: Los siguientes pasos se pueden hacer con archivos FASTA de nucleótidos o proteínas, pero funcionan mejor y son más sencillos con las secuencias de proteínas. Las búsquedas blast usando proteína a proteína es más probable que den resultados cuando se busca entre diferentes especies.
9. Árboles filogenéticos
10. Visualizar la expresión génica usando TPM
Los métodos anteriores se resumen en la Figura 1 y se aplicaron a un conjunto de datos de tejidos de Hydra vulgaris. H. vulgaris es un invertebrado de agua dulce que pertenece al filo Cnidaria que también incluye corales, medusas y anémonas de mar. H. vulgaris puede reproducirse asexualmente por gemación y pueden regenerar su cabeza y pie cuando están divididos en dos. En este estudio, el objetivo fue investigar la evolución y expresión de los genes de la opsina en Hydra7. Mientras que Hydra carece de ojos, exhiben un comportamiento dependiente de la luz32. Los genes opsina codifican proteínas que son importantes en la visión para detectar diferentes longitudes de onda de luz y comenzar la cascada de fototransducción. La investigación de la evolución molecular y la expresión de esta familia de genes en una especie basal puede proporcionar información sobre la evolución de los ojos y la detección de luz en animales.
Se generó un ensamblaje guiado utilizando el genoma de referencia hydra2.0 33 y datos de ARN-seq disponibles públicamente (geo accesión GSE127279) Figura 1. Este paso tomó aproximadamente 3 días. Aunque no generamos un transcriptoma de novo en este caso, un ensamblaje de Trinity puede tardar hasta 1 semana en generarse y cada biblioteca puede tardar unas horas en leer el mapeo dependiendo del mapeador. El ensamblaje de Hydra fusionado (~ 50,000 transcripciones) se anotó usando Blast2GO, que tomó aproximadamente 1 semana en la Figura 1. Las secuencias para los genes opsin-relacionados fueron extraídas en un archivo del fasta. Las secuencias para los genes de opsina de otras especies también se extrajeron de NCBI GenBank. Utilizamos opsinas de cnidarios Podocoryna carnea, Cladonema radiatum, Tripedelia cystophoray Nematostella vectensis,y también incluimos grupos de salida Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster y Homo sapiens. Los genes opsina se alinearon en mega7 figura 2. Al ver la alineación, pudimos identificar las opsinas de Hydra a las que les faltaba un aminoácido de lisina conservado necesario para unirse a una molécula sensible a la luz. Después de la inspección visual, determinamos el mejor modelo haciendo un análisis de selección de modelos. Generamos un árbol de máxima verosimilitud utilizando el modelo LG + G + F con un valor de arranque de 100 Figura 3. Para 149 genes de opsina, el árbol se terminó en aproximadamente 3 días. La filogenia sugiere que los genes de opsina están evolucionando por duplicaciones específicas del linaje en cnidarios y potencialmente por duplicación en tándem en H. vulgaris7.
Realizamos un análisis de expresión diferencial en edgeR y observamos la expresión absoluta de los genes de opsina. Presumimos que una o más opsinas serían upregulated en la cabeza (hypostome) y realizamos comparaciones par-sabias del hypostome contra la columna del cuerpo, la zona de florecimiento, el pie y los tentáculos. Como ejemplo de una comparación par-sabia, 1.774 transcripciones fueron expresadas diferenciado entre el hypostome y la columna del cuerpo. Determinamos los genes que fueron upregulated a través de comparaciones múltiples e hicimos un enriquecimiento funcional en Blast2GO Tabla 1. La agrupación de la actividad acoplada G-proteína del receptor incluyó genes de la opsina. Finalmente, observamos la expresión absoluta de los genes de opsina en diferentes tejidos, durante la brotación y durante la regeneración, trazando sus valores de TPM utilizando ggplot Figura 4. Usando los métodos descritos aquí, identificamos 2 genes de opsina que no se agruparon con las otras opsinas en la filogenia, encontramos una opsina que se expresó casi 200 veces más que otros, y encontramos algunos genes de opsina co-expresados con genes de fototransducción que pueden ser utilizados para la detección de luz.
Figura 1: Esquema de flujo de trabajo. Los programas utilizados para analizar datos en el clúster de computadoras están en azul, en magenta son los que usamos en una computadora local y en naranja es un programa basado en la web. (1) Recorte RNA-seq lee usando trimmomatic v. 0.35. Si hay un genoma disponible pero faltan modelos genéticos, genere un ensamblaje guiado usando STAR v. 2.6.0c y StringTie v. 1.3.4d. (Opcional ver Materiales Suplementarios) (2) Sin un genoma de referencia, utilice lecturas recortadas para hacer un ensamblaje de novo usando Trinity v 2.8.5. (3) Para cuantificar la expresión génica utilizando un genoma de referencia, mapear las lecturas utilizando STAR y cuantificar usando RSEM v. 1.3.1. Extraiga los TPM mediante RSEM y visualícelos en RStudio. (4) Bowtie y RSEM se pueden utilizar para mapear y cuantificar las lecturas mapeadas a un transcriptoma de trinidad. A Trinity script can be used to generate a TPM matrix to visualize counts in RStudio. (5) Utilice NCBI BLAST basado en la web y BLAST+ de línea de comandos para buscar secuencias homólogas y confirmar el uso de BLAST recíproco. Anote los genes aún más usando Blast2GO. Utilice MEGA para alinear genes y generar un árbol filogenético utilizando el modelo de mejor ajuste. Haga clic aquí para ver una versión más amplia de esta figura.
Figura 2: Ejemplo de genes alineados. La instantánea muestra una porción de los genes de la opsina de Hydra alineados usando MUSCLE. La flecha indica la ubicación de una lisina conservada de unión a la retina. Haga clic aquí para ver una versión más amplia de esta figura.
Figura 3: Árbol filogenético de opsina cnidaria. Árbol de máxima verosimilitud generado en MEGA7 utilizando secuencias de opsina de Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster y Homo sapiens. Haga clic aquí para ver una versión más amplia de esta figura.
Figura 4: Expresión de los genes opsina en Hydra vulgaris. (A) Expresión en transcripciones por millón (TPM) de los genes de la opsina hydra vulgaris en la columna del cuerpo, zona de gemación, pie, hipostoma y tentáculos. (B) Expresión de genes de opsina durante diferentes etapas de la gemación de Hydra. (C) Expresión de genes opsina del hipostoma de Hydra durante diferentes puntos de tiempo de regeneración. Haga clic aquí para ver una versión más amplia de esta figura.
Id. de go | Nombre go | Categoría GO | Fdr |
IR:0004930 | Actividad del receptor acoplado a la proteína G | FUNCIÓN MOLECULAR | 0.0000000000704 |
IR:0007186 | Vía de señalización del receptor acoplado a proteínas G | PROCESO BIOLÓGICO | 0.00000000103 |
IR:0016055 | Vía de señalización Wnt | PROCESO BIOLÓGICO | 0.0000358 |
IR:0051260 | homooligomerización de proteínas | PROCESO BIOLÓGICO | 0.000376 |
IR:0004222 | actividad metaloendopeptidasa | FUNCIÓN MOLECULAR | 0.000467 |
IR:0008076 | complejo de canal de potasio bloqueado por voltaje | COMPONENTE CELULAR | 0.000642 |
IR:0005249 | actividad del canal de potasio bloqueado por voltaje | FUNCIÓN MOLECULAR | 0.00213495 |
IR:0007275 | desarrollo de organismos multicelulares | PROCESO BIOLÓGICO | 0.00565048 |
IR:0006813 | transporte de iones de potasio | PROCESO BIOLÓGICO | 0.01228182 |
IR:0018108 | fosforilación de peptidil-tirosina | PROCESO BIOLÓGICO | 0.02679662 |
Tabla 1: Enriquecimiento funcional de genes upregulated en el hipostoma
Materiales suplementarios. Haga clic aquí para descargar estos materiales.
El propósito de este protocolo es proporcionar un contorno de los pasos para caracterizar a una familia del gene usando datos del ARN-seq. Se ha demostrado que estos métodos funcionan para una variedad de especies y conjuntos de datos4,34,35. La tubería establecida aquí se ha simplificado y debería ser lo suficientemente fácil como para ser seguida por un novato en bioinformática. La importancia del protocolo es que describe todos los pasos y programas necesarios para completar un análisis publicable. Un paso crucial en el protocolo es tener transcripciones de longitud completa correctamente ensambladas, esto proviene de genomas o transcriptomas de alta calidad. Para obtener transcripciones adecuadas, se necesita ARN y/o ADN de alta calidad y buenas anotaciones que se analizan a continuación.
Para la preparación de la biblioteca de ARN-seq, incluimos kits de lista que funcionaron para pequeñas partes del cuerpo de Hydra19 y mariposas18 (Tabla de Materiales). Observamos que para el ARN de entrada baja utilizamos un acercamiento modificado del protocolo36. Los métodos para la extracción de ARN se han comparado en múltiples tipos de muestras, incluidas las células de levadura17,el neuroblastoma 37,las plantas38y las larvas de insectos16, por nombrar algunas. Recomendamos al lector adquirir un protocolo que funcione para sus especies de interés, si existe alguna, o solucionar problemas utilizando kits comúnmente disponibles comercialmente para comenzar. Para la cuantificación adecuada de genes, recomendamos tratar la muestra de ARN con DNasa. La presencia de ADN afectará la cuantificación adecuada de los genes. También recomendamos usar un kit de preparación de la biblioteca de ADNc que incluya una selección de cola de poliA para seleccionar el ARNm maduro. Mientras que el agotamiento del ARNr resulta en una mayor profundidad de lectura, el porcentaje de cobertura de exones es mucho menor que la cobertura de exones del ARN utilizando la selección de poliA+39. Por último, cuando sea posible lo mejor es utilizar pareado-extremo y varado40,41. En el protocolo anterior, los comandos read mapping tendrán que modificarse cuando se utilicen lecturas de extremo único.
Como se mencionó anteriormente, es importante poder identificar genes de interés y también diferenciar entre duplicaciones genéticas recientes, empalme alternativo y haplotipos en la secuenciación. En algunos casos, tener un genoma de referencia puede ayudar al determinar dónde se encuentran los genes y los exones en relación entre sí. Una cosa a tener en cuenta es que si un transcriptoma se obtiene de una base de datos pública y no es de alta calidad, puede ser mejor generar usando Trinity42 y combinando bibliotecas de ARN-seq de tejidos de interés. Del mismo modo, si un genoma de referencia no tiene buenos modelos de genes, las bibliotecas de ARN-seq se pueden utilizar para generar nuevos GTF utilizando StringTie43 (ver Materiales Suplementarios). Además, en los casos en que los genes están incompletos y hay acceso a un genoma, los genes se pueden editar manualmente utilizando secuencias homólogas y luego alinearse con el genoma usando tblastn. La salida BLAST se puede utilizar para determinar la secuencia real, que puede ser diferente de la corrección realizada mediante homólogos. Si no hay ninguna coincidencia, deje la secuencia como estaba originalmente. Al comprobar la salida, preste atención a las coordenadas del genoma para asegurarse de que el exón que falta es de hecho parte del gen.
Aunque nos centramos en el software y los programas que utilizamos, existen modificaciones en este protocolo debido a muchos programas disponibles que podrían funcionar mejor para diferentes conjuntos de datos. Como ejemplo, mostramos comandos para mapear lecturas al transcriptoma usando pajarita y RSEM, pero Trinity ahora tiene la opción de alineadores mucho más rápidos como kallisto44 y salmon45. Del mismo modo, describimos las anotaciones usando Blast2GO (ahora OmicsBox) pero hay otras herramientas de mapeador que se pueden encontrar de forma gratuita y en línea. Algunos que hemos probado incluyen: GO FEAT46,eggNOG-mapper47,48,y un alineador muy rápido PANNZER249. Para utilizar estas herramientas de anotación basadas en la web simplemente cargue el péptido FASTA y envíelo. Las versiones independientes de PANNZER y eggNOG-mapper también están disponibles para ser descargadas en el clúster de computadoras. Otra modificación es que usamos MEGA y R en una computadora local y usamos la herramienta EN LÍNEA NCBI BLAST para hacer BLASTs recíprocos, sin embargo, todos estos programas se pueden usar en el clúster de computadoras descargando los programas y bases de datos necesarios. Del mismo modo, los alineadores kallisto y salmon se pueden usar en un equipo local siempre y cuando un usuario tenga suficiente RAM y almacenamiento. Sin embargo, los archivos FASTQ y FASTA tienden a ser muy grandes y recomendamos encarecidamente el uso de un clúster de computadoras para facilitar y acelerar. Además, si bien proporcionamos instrucciones y enlaces para descargar programas de sus desarrolladores, muchos de ellos se pueden instalar desde bioconda: https://anaconda.org/bioconda.
Un problema común que se enfrenta al hacer análisis bioinformáticos es el error de los scripts de shell. Esto puede deberse a una variedad de razones. Si se crea un archivo de error, estos archivos de error deben comprobarse antes de solucionar el problema. Algunas razones comunes para un error son errores tipográficos, falta de parámetros clave y problemas de compatibilidad entre versiones de software. En este protocolo, incluimos parámetros para los datos, pero los manuales de software pueden proporcionar directrices más detalladas para parámetros individuales. En general, lo mejor es utilizar las versiones más actualizadas del software y consultar el manual correspondiente a esa versión.
Las mejoras a este protocolo incluyen hacer un análisis de expresión diferencial de todo el transcriptoma y un análisis de enriquecimiento funcional. Recomendamos edgeR50 para el análisis de expresión diferencial un paquete disponible en Bioconductor. Para el análisis de enriquecimiento funcional, hemos utilizado Blast2GO29 y DAVID51,52basado en la web. También recomendamos seguir editando la filogenia extrayendola como un archivo newick y usando iTOL53basado en la web. Además, si bien este protocolo investigará la evolución molecular y los patrones de expresión de los genes, se pueden utilizar experimentos adicionales para validar las ubicaciones y funciones de genes o proteínas. La expresión del mRNA se puede confirmar por RT-qPCR o el hibridación in situ. Las proteínas se pueden localizar usando immunohistochemistry. Dependiendo de la especie, los experimentos knockout se pueden utilizar para confirmar la función del gen. Este protocolo puede ser utilizado para una variedad de objetivos incluyendo, como se muestra arriba, para explorar una familia de genes típicamente asociada con la fotorrecepción en una especie basal7. Otra aplicación de estos métodos es identificar cambios en una vía conservada bajo diferentes presiones selectivas. Como ejemplo, estos métodos se utilizaron para descubrir la variación en la expresión de los canales potenciales del receptor transitorio de la visión entre las mariposas diurnas y las polillas nocturnas34.
Los autores no tienen nada que revelar.
Agradecemos a Adriana Briscoe, Gil Smith, Rabi Murad y Aline G. Rangel por su asesoramiento y orientación para incorporar algunos de estos pasos en nuestro flujo de trabajo. También estamos agradecidos a Katherine Williams, Elisabeth Rebboah y Natasha Picciani por los comentarios sobre el manuscrito. Este trabajo fue apoyado en parte por una beca de investigación médica de la Fundación George E. Hewitt para A.M.M.
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados