Method Article
Galaxy y David se han convertido en herramientas populares que permiten a los investigadores sin formación bioinformática para analizar e interpretar los datos de RNA-Seq. Se describe un protocolo para C. elegans los investigadores realizar RNA-Seq experimentos, acceder y procesar el conjunto de datos usando Galaxy y obtener información biológica significativa de las listas de genes usando DAVID.
generación de secuenciación de próxima (NGS) tecnologías han revolucionado la naturaleza de la investigación biológica. De estos, RNA Sequencing (RNA-Seq) ha surgido como una poderosa herramienta para el análisis de expresión génica y mapeo transcriptoma. Sin embargo, el manejo de bases de datos de RNA-Seq requiere experiencia computacional sofisticado y plantea retos inherentes para investigadores de la biología. Este cuello de botella ha sido mitigada por el proyecto de acceso abierto Galaxy que permite a los usuarios sin conocimientos de bioinformática para analizar los datos de RNA-Seq, y la base de datos para la anotación, visualización, y Integrado de Discovery (DAVID), una ontología de genes (GO) Suite término análisis que ayuda entender el significado biológico de grandes conjuntos de datos. Sin embargo, para los usuarios de primera vez y los aficionados bioinformática, el autoaprendizaje y la familiarización con estas plataformas puede llevar mucho tiempo y difícil. Se describe un flujo de trabajo sencillo que ayudará a C. elegans investigadores aislar ARN de gusano, llevar a cabo un experimento de RNA-Seqy analizar los datos utilizando plataformas Galaxy y David. Este protocolo proporciona instrucciones paso a paso para el uso de los diversos módulos Galaxy para acceder a los datos en bruto NGS, controles de calidad, la alineación y análisis de la expresión génica diferencial, guiando al usuario con los parámetros en cada paso para generar una lista de genes que se pueden cribar para el enriquecimiento de clases de genes o procesos biológicos utilizando DAVID. En general, esperamos que este artículo se proporcionará información a los investigadores que realizan C. elegans experimentos de RNA-Seq, por primera vez, así como usuarios frecuentes que ejecutan un pequeño número de muestras.
La primera secuenciación del genoma humano, lleva a cabo mediante el método de secuenciación de didesoxinucleótidos-Fred Sanger, tomó 10 años, y un costo estimado de US $ 3 billón 1, 2. Sin embargo, en poco más de una década desde su creación, Next-Generation Sequencing Technology (NGS) ha hecho posible secuenciar el genoma humano completo en dos semanas y por US $ 1,000. NGS nuevos instrumentos que permiten velocidades cada vez mayores de la colección de secuenciación de datos con una eficiencia increíble, junto con fuertes reducciones en el costo, están revolucionando la biología moderna en formas inimaginables como proyectos de secuenciación del genoma están convirtiendo rápidamente en un lugar común. Además, estos desarrollos han galvanizado avances en muchas otras áreas tales como el análisis de expresión génica a través de RNA-Sequencing (RNA-Seq), el estudio de las modificaciones epigenéticas en todo el genoma, las interacciones ADN-proteína, y la detección de la diversidad microbiana en huéspedes humanos. NGS-basado RNA-Seq en particular, ha hecho que sea posible identificar y transcriptomes mapa integral con precisión y sensibilidad, y ha sustituido a la tecnología de microarrays como el método de elección para los perfiles de expresión. Mientras que la tecnología de microarrays se ha utilizado ampliamente, que está limitado por su dependencia de las matrices de pre-existentes con la información genómica conocida, y otros inconvenientes tales como hibridación cruzada y la gama restringida de los cambios de expresión que se puede medir de forma fiable. RNA-seq, por otra parte, puede ser utilizado para detectar tanto las transcripciones conocidos y desconocidos, mientras que la producción de bajo nivel de ruido de fondo debido a su naturaleza inequívoca asignación de ADN. RNA-Seq, junto con las numerosas herramientas genéticas ofrecidas por organismos modelo tales como levaduras, moscas, gusanos, peces y ratones, ha servido de base para muchos descubrimientos biomédicos recientes importantes. Sin embargo, sigue habiendo retos importantes que hacen NGS inaccesibles para la comunidad científica en general, incluidas las limitaciones de almacenamiento, procesamiento y, sobre todo, m análisis bioinformática eaningful de grandes volúmenes de datos de secuenciación.
Los rápidos avances en las tecnologías de secuenciación y la acumulación exponencial de los datos han creado una gran necesidad de plataformas computacionales que permitan a los investigadores acceder, analizar y comprender esta información. Los primeros sistemas dependían en gran medida de los conocimientos de programación informática, mientras que, genoma navegadores tales como NCBI que permitieron a los no programadores para acceder y visualizar datos no permitió análisis sofisticados. La plataforma, de acceso libre basada en la web, Galaxy ( https://galaxyproject.org/ ), ha llenado este vacío y ha demostrado ser una tubería valiosa que permite a los investigadores para procesar datos de NGS y llevar a cabo una variedad de fácil de complejo análisis de la bioinformática. Galaxy se estableció inicialmente, y se mantiene, por los laboratorios de Anton Nekrutenko (Penn State University) y James Taylor (Universidad Johns Hopkins)f "> 3. El Galaxy ofrece una amplia gama de tareas de cómputo por lo que es una 'ventanilla única' para las necesidades de la bioinformática innumerables, incluyendo todos los pasos involucrados en un estudio de RNA-Seq. Itallows usuarios para realizar el procesamiento de datos, ya sea en sus servidores o localmente en sus propias máquinas. los datos y flujos de trabajo pueden ser reproducidos y compartidos. los tutoriales en línea, sección de ayuda, y una página-wiki ( https://wiki.galaxyproject.org/Support ) dedicada al Proyecto Galaxy proporcionan un apoyo constante. Sin embargo, para los usuarios de primera vez, especialmente aquellos que no tienen la formación bioinformática, la tubería puede parecer desalentador y el proceso de auto-aprendizaje y familiarización puede llevar mucho tiempo. Además, el sistema biológico estudiado, y los detalles del experimento y los métodos utilizados, el impacto las decisiones analíticas en varios pasos, y estos pueden ser difíciles de navegar sin instrucción.
El RN general A-Seq Galaxy de flujo de trabajo consiste en la carga de datos y verificación de la calidad seguido por análisis utilizando el Tuxedo Suite 4, 5, 6, 7, 8, 9, que es un colectivo de varias herramientas requeridas para las diferentes etapas de análisis de datos RNA-Seq 10, 11, 12, 13, 14. Un experimento típico RNA-Seq consiste en la parte experimental (preparación de la muestra, el aislamiento de ARNm y ADNc de preparación de la biblioteca), la NGS y el análisis de la bioinformática datos. Una visión general de estas secciones, y los pasos involucrados en la tubería Galaxy, se muestran en la Figura 1.
3fig1.jpg"/>
Figura 1: Visión general de un RNA-Seq Workflow. Ilustración de los pasos experimentales y computacionales que participan en un experimento RNA-Seq para comparar los perfiles de expresión génica de dos cepas de gusanos (A y B, líneas de color naranja y verde y flechas, respectivamente). Los diferentes módulos de Galaxy utilizado se muestran en recuadros con el paso correspondiente en el protocolo indicado en rojo. Las salidas de diversas operaciones están escritos en gris con los formatos de archivo que se muestran en azul. Haga clic aquí para ver una versión más grande de esta figura.
La primera herramienta en el Tuxedo Suite es un programa de alineación llamada 'Tophat'. Se descompone la entrada NGS lee en fragmentos más pequeños y luego los asigna a un genoma de referencia. Este proceso de dos pasos asegura que lee abarca regiones intrónicas cuya alineación puede ser de otro modo disrupted o perdidas se contabilizan y se asigna. Esto aumenta la cobertura y facilita la identificación de nuevas uniones de empalme. Salida Tophat se informa como dos archivos, un archivo de BED (con información sobre las uniones de corte y empalme que incluyen localización genómica) y un archivo de BAM (con detalles de mapeo de cada lectura). A continuación, el archivo de BAM se alinea contra un genoma de referencia para estimar la abundancia de las transcripciones individuales dentro de cada muestra con la función posterior en la Suite Tuxedo llamada 'Gemelos'. Gemelos funciones mediante el escaneo de la alineación reportar fragmentos de transcripción de longitud completa o 'transfrags' que abarcan todas las posibles variantes de empalme en los datos de entrada para cada gen. Basado en esto, se genera un 'transcriptoma' (montaje de todas las transcripciones generadas por gen para cada gen) para cada muestra que se secuenciaron. Estos conjuntos de mancuernas se colapsaron luego o se fusionaron junto con la referencia genoma para producir un único archivo de anotación para el análisis diferencial de aguas abajo usando la siguiente herramienta, 'Cuffmerge'. Por último, la expresión génica herramienta medidas diferencial la 'Cuffdiff' entre las muestras mediante la comparación de las salidas el sombrero de copa de cada una de las muestras para el archivo de salida Cuffmerge final (Figura 1). Gemelos utiliza FPKM / RPKM (Fragmentos / Lee por kilobase de transcripción por millón asignada lecturas) los valores reportar transcripción abundancias. Estos valores reflejan la normalización de los datos NGS primas para la profundidad (número promedio de lecturas de una muestra que se alinean con el genoma de referencia) y la longitud de genes (genes tener longitudes diferentes, por lo recuentos tienen que ser normalizado para la longitud de un gen para comparar los niveles entre los genes). FPKM y RPKM son esencialmente los mismos con RPKM ser utilizados para un solo extremo RNA-Seq donde cada lectura corresponde a un solo fragmento, mientras que, FPKM se utiliza para-Extremo emparejado RNA-Seq, ya que representa el hecho de que dos lecturas pueden corresponder al mismo fragmento. En última instancia, el resultado de estos análisis es una lista de genes expresados diferencialmente entre las condiciones y / o las cepas ensayadas.
Una vez que una carrera exitosa Galaxy se ha completado y se genera una 'lista de genes', el siguiente paso lógico requiere más análisis de la bioinformática para deducir conocimiento significativo de los conjuntos de datos. Muchos paquetes de software han surgido para atender a esta necesidad, incluyendo paquetes computacionales basados en web disponibles públicamente como David (la base de datos para la anotación, y Visualización Integrada Discovery) 15. DAVID facilita la asignación de significado biológico a grandes listas de genes de alto rendimiento estudios comparando la lista de genes subido a su base de conocimiento biológico integrado y revelar las anotaciones biológicas asociadas con la lista de genes. Esto es seguido por análisis de enriquecimiento, es decir, las pruebas a identify si cualquier clase de proceso o gen biológico se excesivamente en la lista (s) de genes de una manera estadísticamente significativa. Se ha convertido en una opción popular debido a una combinación de una amplia, base de conocimiento integrado y algoritmos de análisis de gran alcance que permiten a los investigadores a detectar temas biológicos enriquecidos dentro de la genómica-deriva '' listas de genes 10, 16. Las ventajas adicionales incluyen su capacidad para procesar las listas de genes creado en cualquier plataforma de secuenciación y una interfaz muy fácil de usar.
El nematodo Caenorhabditis elegans es un sistema modelo genético, bien conocida por sus muchas ventajas, tales como tamaño pequeño, cuerpo transparente, plan de cuerpo simple, facilidad de la cultura y gran susceptibilidad a la disección genética y molecular. Worms tienen un pequeño, simple y bien anotado genoma que incluye hasta un 40% de genes conservados con homólogos humanos conocidos 17. De hecho, C. elegansfue la primera metazoan cuyo genoma fue secuenciado por completo 18, y una de las primeras especies que se utilizó RNA-Seq para mapear transcriptoma de un organismo 19, 20. Estudios gusano temprano involucrados experimentación con diferentes métodos para alto rendimiento de captura de RNA, la preparación de la biblioteca y la secuenciación, así como tuberías de bioinformática que contribuyeron al avance de la tecnología de 21, 22. En los últimos años, la experimentación basada en ARN-Seq en los gusanos se ha convertido en un lugar común. Pero, para los biólogos del gusano tradicionales los retos que plantea el análisis computacional de los datos de RNA-Seq siguen siendo un obstáculo para una mayor y mejor utilización de la técnica.
En este artículo, se describe un protocolo para el uso de la plataforma Galaxy para analizar los datos de RNA-Seq alto rendimiento generados a partir de C. elegans. Para muchos por primera vez y de pequeña scaLe usuarios, la forma más rentable y sencillo para llevar a cabo un experimento de RNA-Seq es aislar ARN en el laboratorio y utilizar una instalación comercial NGS (o en casa) para la preparación de bibliotecas de ADNc de secuenciación y el propio NGS. Por lo tanto, hemos detallado primero las etapas implicadas en el aislamiento, la cuantificación y evaluación de la calidad de C. elegans muestras de ARN para la ARN-Seq. A continuación, se proporcionan instrucciones paso a paso para el uso de la interfaz de Galaxy para el análisis de los datos de NGS, comenzando con las pruebas de los controles de calidad post-secuenciación seguido de alineación, el montaje, y la cuantificación diferencial de la expresión génica. Además, hemos incluido direcciones para escudriñar los listas de genes resultantes de Galaxy para estudios de enriquecimiento biológicos utilizando DAVID. Como paso final en el flujo de trabajo, se proporcionan instrucciones para cargar los datos de RNA-Seq a los servidores públicos, tales como la secuencia de lectura del archivo (SRA) en el NCBI ( http: // www.ncbi.nlm.nih.gov/sra) para que sea libremente accesible para la comunidad científica. En general, esperamos que este artículo se proporcionará información completa y suficiente para los biólogos del gusano que llevan a cabo experimentos de RNA-Seq, por primera vez, así como usuarios frecuentes que ejecutan un pequeño número de muestras.
1. Aislamiento de ARN
2. ARN-Sec Análisis de Datos
Figura 2: Estructura de la Galaxy panel de interfaz y funciones clave de ARN-Seq usuario. Las principales características de la página se expanden y se destacaron. (A) pone de relieve la función 'Analizar datos' en la cabecera de la página web utilizada para el acceso Análisis de Inicio Ver. (B) es la 'barra de progreso' que indica el espacio en el servidor Galaxy utilizado por la operación. (C) es el 'Herramientas Sección' que enumera todas las herramientas que se pueden ejecutar en la interfaz Galaxy. (D) muestra los 'NGS: Análisis de ARN' sección herramienta utilizada para el análisis de ARN-Seq. (E) representa el panel 'Historia' que muestra todos los archivos generados utilizando Galaxy. (F) muestra un ejemplo del cuadro de diálogo que se abre al hacer clic en cualquier archivo en la sección de Historia. Dentro de (F), la caja azul destaca iconos que se pueden utilizar para ver, editthe atributos o eliminar el conjunto de datos, el cuadro morado destaca iconos que se pueden utilizar para 'editar' las etiquetas conjunto de datos o anotación, y, el cuadro rojo indica iconos descargar los datos, ver detalles de la tarea realizada o volver a ejecutar la operación. Haga clic aquí para ver una versión más grande de esta figura.
3. ontología de genes (GO) Análisis plazo utilizando DAVID
Figura 3: Disposición de la DAVID Análisis Asistente página web y ejemplos de salidas de operación. Web interfaz de usuario del 'Análisis Asistente' se enumeran las herramientas utilizadas para analizar la lista de genes de subida para el enriquecimiento en base a varios parámetros. Al hacer clic sobre estas herramientas de informes de los datos analizados en una nueva página web. Ejemplos de los informes tabulares generados a partir de 'Gene Clasificación Funcional', 'Tabla de anotación funcional' y 'Clustering anotación funcional' se muestran como inserciones (flechas).> Haga clic aquí para ver una versión más grande de esta figura.
4. Carga de datos RAW en el NCBI secuencia de lectura del archivo (SRA)
En C. elegans, la eliminación de las células madre de línea germinal (GSCS) se extiende la vida útil, mejora la resistencia al estrés, y eleva la grasa corporal 24, 28. Pérdida de GSCs, ya sea provocado por ablación por láser o por mutaciones, tales como GLP-1, provoca prolongación de la vida a través de la activación de una red de factores de transcripción 29. Uno de tales factores, TCER-1, codifica el homólogo del gusano de la elongación de la transcripción y splicing factor humano, TCERG1 30. Los siguientes resultados representativos ilustran cómo se utilizó RNA-Seq para identificar los genes cuya expresión está modulada por TCER-1 / TCERG1 después de la pérdida de la línea germinal en nuestro estudio recientemente publicado 31. Los transcriptomes de emparejados por edad, día 2 adultos de GLP-1 y tCER-1; se compararon GLP-1 mutantes. Para cada cepa, el ARNm se aisló de dos réplica biológicates (cuatro muestras totalmente) utilizando el protocolo descrito en la sección 1. Las muestras de ARN se envían a un proveedor de servicios comerciales que prepara bibliotecas de ADNc a partir de las cuatro muestras y se realizó 50 pb secuenciación solo extremo. Los datos de NGS en bruto se descargó como se describe en la sección 2.1.
Mensaje evaluación de datos de secuenciación
Tabla 1 es una compilación de resultados de la prueba para evaluar la calidad de la secuenciación lecturas brutas. análisis de control de calidad 'FASTQ' pone de manifiesto el número de secuencias leer con no 'mala calidad' lee junto con el contenido GC 48-49% y una secuencia de longitud constante leer de 51 pb. Este paso también comprueba los datos de secuenciación para muchas otras características tales como el contenido Kmer y se hace colectivamente por 11 pruebas en total. El C. elegans genoma es de ~ 100 Mbp. Basado en el número de lecturas de secuenciación de cada muestra que asigna al genoma, la gcobertura enome (última columna) se estimó usando la ecuación Lander / Waterman 'C = LN / G', en donde, C significa la cobertura, G es la longitud del genoma haploide, L es la longitud de lectura y N es el número de lecturas. Utilizamos parámetros por defecto para todos los pasos y se obtuvieron 48 - contenido de GC del 49% en todas las muestras. Como puede verse, la cobertura del genoma fue entre 9x a 11x en las muestras.
Identificación de TCER-1 / Genes TCERG-1-regulada por Análisis de la expresión diferencial de genes en Galaxy
A través de los pasos que se detallan en las secciones 2.2 a 2.4, la tubería Galaxy 3 se utilizó para obtener una lista de genes expresados diferencialmente entre GLP-1 y tCER-1; GLP-1 mutantes. Galaxy nos ha permitido combinar los datos NGS de las dos réplicas para cada cepa y se realizó el análisis diferencial para generar archivos tabulares destacando la amplia expresión del genoma prRETR A TO. Utilizando un umbral de cambio al menos una veces en la magnitud y el valor P de al menos 0,05, se generó una lista de 835 genes que son expresados diferencialmente entre las dos cepas 31. La lista se divide en función de si la expresión de los genes se había reducido regulado en tCER-1; GLP-1 mutantes (359 UP genes cuya transcripción es probable reforzada por TCER-1 / TCERG1) o hasta reguladas (476 genes ABAJO cuya transcripción es probable reprimida por TCER-1 / TCERG1) en comparación con GLP-1 (Figura 4).
Figura 4: Identificación de genes regulados-TCERG1 TCER-1 / en la línea germinal-menos C. elegans mutantes utilizando RNA-Seq: Resultados de Galaxy (A) y DAVID (B) análisis. (A) análisis de la expresión génica diferencial de los datos de RNA-Seq comparandola transcriptomes de GLP-1 y tCER-1; GLP-1 produjeron un total de 835 genes, de los cuales 359 fueron identificados como hasta reguladas por TCER-1 / TCERG1 (UP) y 476 como hacia abajo-regulada por TCER-1 / TCERG1 (DOWN). (B) Resultados del análisis de los genes identificados como tCER-1 / TCERG1 objetivos utilizando DAVID 'funcional de anotación Clustering'. Porcentaje de enriquecimiento de los procesos biológicos, tanto para los (DOWN) Clases Hasta regulados (UP) y regulados-Down de tCER-1 / TCERG1 objetivos. El gráfico que se muestra aquí se obtiene mediante el trazado de los grupos de genes enriquecidos (eje X) y su respectiva por ciento de enriquecimiento (eje Y) obtenido como la salida del análisis DAVID. Figura modificado de Amrit et al. 31 y reproducido con autorización. Haga clic aquí para ver una versión más grande de esta figura.
ontología de genes de enriquecimiento de análisis
Para obtener una visión general de las clases de genes enriquecidas en objetivos TCER-1 / TCERG1, llevamos a cabo análisis de genes ontología (GO) plazo utilizando DAVID. El TCER-1 / TCERG1 regulada-UP y las listas de genes ABAJO se cargaron de forma independiente en DAVID y se analizó como se describe en la sección 3. Poco se sabe acerca de los genes y los procesos celulares dirigidos por TCER-1 / TCERG1 previamente 30, por lo que se encontró el DAVID análisis sea especialmente reveladora y útil. Análisis anotación funcional de los genes UP reveló cinco grupos de anotación con una puntuación de Enriquecimiento de> 1,3, el más alto incluyendo citocromo P450 genes enzima de codificación y los genes de respuesta xenobióticos, seguido de los genes implicados en las modificaciones lipídicas. Esto fue reforzado por los resultados del gen de análisis de clasificación funcional que identificaron grupos atribuyen con molecula similaresLas actividades de I con resultados significativos de enriquecimiento. El uso de hoja de cálculo, los grupos identificados se representaron frente a sus respectivas puntuaciones de enriquecimiento (Figura 4). Nuestros datos anteriores sugiere que TCER-1 / TCERG1 funcionaba con el conservada factor de la longevidad de la transcripción, DAF-16 / FOXO3A, para promover la longevidad de GSC menos-adultos 30. DAF-16 / FOXO3A, a su vez, ha sido implicado en la modulación de metabolismo de los lípidos en los últimos estudios de 27, 32, 33. Basado en esta evidencia, y la identificación de genes y las vías lipídico-metabólico como potenciales tCER-1 / TCERG1 objetivos en el DAVID análisis, nos centramos en los genes del metabolismo de grasa identificadas en el estudio RNA-Seq para estudios mecanísticos detallados. Después de este plomo, y a través de la experimentación genética, bioquímica, y funcional molecular posterior, hemos demostrado que TCER-1 / TCERG1 junto con DAF-16 / FOXO3A coordinadamente Enhanced tanto catabólica de los lípidos y los procesos anabólicos en respuesta a la pérdida de la línea germinal 31. Del mismo modo, la anotación funcional agrupación de los ABAJO TCER-1 / TCERG1 objetivos identificados Clusters de anotación enriquecidas para las funciones del citoesqueleto, la regulación positiva de crecimiento, la reproducción y el envejecimiento (Figura 4). Estas observaciones, y nuestras evidencias experimentales que apoyan, sugieren que en caso de pérdida de la línea germinal, TCER-1 / TCERG1 también reprime el crecimiento y la fisiología reproductiva en las células somáticas, así como la expresión de genes anti-longevidad 31.
Muestra | Las secuencias totales | Longitud | % GC | Total de Lecturas (Galaxy) | Asignada lecturas (Galaxy) | La cobertura del genoma |
GLP-1 | 4000000 | 51 | 49 | 20700539 | ~ 16 millones | 11x |
GLP-1; tCER-1 | 4000000 | 51 | 49 | 18055444 | ~ 13 millones | 9x |
GLP-1 | 4000000 | 51 | 48 | 18947463 | ~ 14 millones | 10x |
GLP-1; tCER-1 | 4000000 | 51 | 48 | 13829643 | ~ 10 millones | 7x |
Tabla 1: ARN-Seq detalles de la muestra. Compilación de los atributos de datos en bruto evaluada después de la secuenciación para confirmar el éxito de la serie de secuenciación. Los datos de secuenciación del experimento representativo se compone de dos condiciones biológicas, una cepa de control (GLP-1 ) Y una cepa mutante (tCER-1; GLP-1) con dos réplicas biológicas secuenciados para cada uno. Análisis de control de calidad 'FastQC' pone de manifiesto el número de secuencias leer con no "mala calidad" lee, 48 - contenido de GC del 49% y un leer secuencia de longitud constante de 51bp. Modificado y reproducido con permiso de Amrit et al. 31.
Archivo suplementario: la cadena de comando en breve para las herramientas se ejecutan en la tubería Galaxy para el análisis de datos de RNA-Seq. Haga clic aquí para descargar este archivo.
Importancia de la plataforma de secuenciación Galaxy biología de hoy
El Proyecto Galaxy se ha convertido en fundamental para ayudar a los biólogos y sin la formación de bioinformática para procesar y analizar los datos de secuenciación de alto rendimiento de una manera rápida y eficiente. Una vez considerada una tarea hercúlea, esta plataforma accesible al público que ha hecho correr algoritmos bioinformáticos complejos para analizar los datos NGS un proceso sencillo, fiable y fácil. Aparte de la celebración de una amplia gama de herramientas de la bioinformática, la clave del éxito para el Galaxy es también la sencillez de su interfaz de usuario que ata juntos los diversos aspectos del análisis de la secuencia compleja de una manera intuitiva y sin problemas. Gracias a estas características, la tubería Galaxy ha adquirido un amplio uso entre los biólogos, incluyendo C. elegans investigadores. Además de facilitar el manejo de la tubería Análisis de ARN-Seq, Galaxy también ayuda a sentar las bases para los biólogos básicos para comprender laconcepto de análisis de datos y entender las herramientas involucradas. Este conocimiento ceba el usuario para perseguir tal vez más plataformas bioinformáticas más complejos tales como 'R' y 'Python'. Además Galaxy, otras herramientas y paquetes están disponibles comercialmente y como soluciones de fuente abierta, que pueden ser utilizados para el análisis de RNA-Seq. Las opciones comerciales son a menudo independiente paquetes de software que son fáciles de usar, pero puede ser caro para los investigadores individuales que no usan a menudo NGS. Por otra parte, las plataformas de código abierto, como BioWadrobe 34 y 35 ArrayExpressHTS requieren conocimientos básicos de la línea de comandos y ejecutar secuencias de comandos, lo que plantea retos importantes para los no bioinformáticos. Por lo tanto, el Galaxy sigue siendo un recurso popular e indispensable.
Los pasos críticos en el protocolo
Las ventajas de esfuerzo Galaxy y David no obstante, un exitoso experimento de RNA-Seq todavíase basa fundamentalmente en el diseño y ejecución de la etapa experimental cuidadoso. Por ejemplo, es crítico para asegurar la homogeneidad genética antes de comparar dos cepas por la RNA-Seq, y para determinar si hay diferencias en las tasas de desarrollo. Aislamiento de RNA a partir de cepas de la misma edad es crítica también. Del mismo modo, para tener en cuenta la variabilidad de la expresión génica dentro de la misma cepa, es importante para ejecutar dos o más '' réplicas biológicas de cada cepa. Esto significa esencialmente creciente y gusanos de cosecha de las cepas de ser secuenciado en los experimentos al menos twoindependent, aunque tres réplicas biológicas es el estándar recomendado. Galaxy unifica los datos de múltiples réplicas biológicas de manera que los reportados diferencias de expresión genética entre las cepas no son simplemente una consecuencia de la variabilidad 'dentro de la muestra'.
Una decisión de diseño crítico es sobre el uso de un solo extremo frente a la secuenciación de extremo emparejado. Consecuenciación de extremo único, cada fragmento se secuencia unidireccionalmente por lo que el proceso es más rápido, más barato y adecuado para perfil transcripcional. En la secuenciación de extremo emparejado, una vez que el fragmento se secuenció a partir de un extremo al otro, una segunda ronda de secuenciación se reanuda en la dirección opuesta. Proporciona más datos en profundidad y la información de posicionamiento adicional del genoma, por lo que es más adecuado para el ensamblaje del genoma de novo, nueva identificación SNP y para identificar epigenéticos modificaciones, deleciones, inserciones, y las inversiones. Del mismo modo, el número total de lee y el alcance de la cobertura del genoma requerido para estudios adecuados de expresión diferencial es dependiente del contexto. Para genomas pequeños, tales como bacterias y hongos, ~ 5 millones lee es suficiente, mientras que, en los gusanos y moscas ~ 10 millones lee proporcionar una cobertura adecuada. Para los organismos con grandes genomas, tales como ratones y seres humanos 15-25 millones de lecturas es el intervalo requerido. Además, con el número de lectura y la cobertura, también es importante que la mayoría de la NGS lee alinean con el genoma de referencia. Un alineamiento de <70% lee es indicativo de NGS pobres o la presencia de contaminantes. En general, por C. elegans estudios de ARN-Seq, tres réplicas biológicas secuenciaron con 50 pb secuenciación unidireccional resultando en ~ 10-15 million lee y ~ 5-10X cobertura del genoma para cada muestra es un objetivo ideal.
A pesar de la facilidad de uso de la galaxia, hay algunos puntos a tener en cuenta con el fin de garantizar una experiencia de análisis de datos suave y libre de saltos. Es necesario que el usuario tenga un conocimiento básico de la finalidad y el funcionamiento de las diferentes herramientas utilizadas. Cada herramienta Galaxy requiere la selección de los parámetros y de la comprensión de la herramienta ayudará al usuario a optimizar la configuración basado en el requisito del experimento. Las páginas de ayuda Galaxy explican todos los parámetros y se recomienda que el usuario leer detenidamente estos datos para decidir sobre las variables de prueba.
El p lista de genes obtenidaost análisis de ARN-Seq es simplemente una lista de genes hasta que se extrae de los datos relevantes biológicamente utilizando DAVID. Este es un ejercicio crucial que convierte los datos basados en genes individuales en los resultados basados en el proceso biológico. Exploración de la lista de genes de ARN-Seq utilizando los diversos análisis de DAVID proporciona por lo tanto es una parte integral e importante del protocolo.
Las modificaciones, la solución de problemas y limitaciones
Un fallo común con el análisis de datos NGS es tareas o pruebas que fallan, especialmente en las etapas de control de calidad. De las pruebas que FastQC se ejecuta en una muestra, un pocos podrían llegar como fallido. Sin embargo, esto no significa necesariamente que la muestra no cumple con los estándares de calidad FASTQ. El fallo podría tener una explicación alternativa que debe ser explorado con cuidado.
Por ejemplo, si falla la prueba 'Per base de contenido de la secuencia' (lo que sugiere que hay una diferencia mayor que 10% entrebases en cualquier posición), comprobar el método para la preparación de la biblioteca oligodT. El trabajo previo ha demostrado que las bibliotecas Illumina NGS pueden tener una propensión a la base 13 de ser secuenciado para tener un sesgo para ciertas bases que causan la muestra a fallar la prueba. Del mismo modo, un fallo de la prueba 'Kmer contenido' a veces se puede atribuir al hecho de que las bibliotecas derivadas de cebado aleatorio casi siempre mostrarán sesgo Kmer al comienzo debido a un muestreo incompleto de los cebadores aleatorios. Por lo tanto, es importante tener en cuenta estos y otros obstáculos en el análisis de tuberías antes de determinar el destino del experimento.
Otra característica importante que puede afectar el análisis de datos RNA-Seq es los rápidos avances y exponencial que se están produciendo en los métodos de NGS y software analítico. Idealmente, uno espera una lista de genes idénticos que el resultado de analizar un conjunto de datos de muestra de NGS en dos tuberías o dos versiones de la misma tuberíalínea. Sin embargo, mientras que constantemente mejorar algoritmos están bajando aberraciones en el análisis de RNA-Seq y la producción de las listas de genes de una mayor precisión, esto a menudo conduce a disparidades. Por ejemplo, el análisis de una muestra de datos NGS utilizando una versión más reciente mayores vs. del mismo conjunto de herramientas puede producir significativamente diferentes listas de genes. Se espera una variación modesta pero los usuarios deben ser conscientes de que las grandes discrepancias pueden ser el reflejo de las debilidades en el diseño o la realización del experimento.
En conjunto, las herramientas de análisis del proyecto Galaxy y David han transformado la forma de datos NGS se pueden aprovechar para extraer información biológicamente relevante. Esto ha abierto completamente nuevos niveles de independencia y la investigación a la comunidad científica, incluyendo C. elegans investigadores. Por ejemplo, el costo constante reducción de la secuenciación junto con una mejor y más rápida tecnología de secuenciación están marcando el comienzo de una era de transcriptómica en el nivel de gusanos individuales,tejidos de gusanos individuales e incluso algunas células del gusano selectos. Estos esfuerzos implican un aumento espectacular de los datos que se generan NGS. El continuar con el extremo analítico de este flujo de trabajo será un reto, pero debido a su versatilidad, Galaxy es probable que sea instrumental en la faculta a la transición de la transcriptómica todo el organismo a RNA-Seq a nivel de células individuales en C. elegans. Los avances en el conocimiento resultantes son propensos a ofrecer pistas extraordinarias sobre la biología fundamental.
Los autores no tienen nada que revelar.
Los autores desean expresar su agradecimiento a los laboratorios, grupos e individuos que han desarrollado Galaxy y David, y por lo tanto hechas NGS ampliamente accesible para la comunidad científica. La ayuda y el asesoramiento brindado por sus colegas de la Universidad de Pittsburgh durante nuestra formación bioinformática es reconocido. Este trabajo fue apoyado por una Fundación Médica Ellison Nueva Académico en el envejecimiento premio (AG-NS-0879-12) y una subvención de los Institutos Nacionales de Salud (R01AG051659) a AG.
Name | Company | Catalog Number | Comments |
RNase spray | Fisher Scientific | 21-402-178 | |
Trizol | Ambion | 15596026 | |
Sonicator | Sonics Vibra Cell | VCX130 | |
Centrifuge | Eppendorf | 5415C | |
chloroform | Sigma Aldrich | 288306 | |
2-propanol | Fisher Scientific | A416P-4 | |
Ethanol | Decon Labs | 2705HC | |
RNase-free water | Fisher Scientific | BP561-1 | |
Bioanalyzer | Agilent | G2940CA | |
Mac/PC |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados