Method Article
El protocolo presentado aquí describe una tubería completa para analizar los datos del transcriptoma de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales, incluidos los pasos de control de calidad y preprocesamiento para enfoques analíticos estadísticos avanzados.
Los patógenos pueden causar una amplia variedad de enfermedades infecciosas. Los procesos biológicos inducidos por el huésped en respuesta a la infección determinan la gravedad de la enfermedad. Para estudiar tales procesos, los investigadores pueden utilizar técnicas de secuenciación de alto rendimiento (RNA-seq) que miden los cambios dinámicos del transcriptoma del huésped en diferentes etapas de la infección, los resultados clínicos o la gravedad de la enfermedad. Esta investigación puede conducir a una mejor comprensión de las enfermedades, así como a descubrir posibles objetivos farmacológicos y tratamientos. El protocolo presentado aquí describe una tubería completa para analizar los datos de secuenciación de ARN desde lecturas sin procesar hasta análisis funcionales. La tubería se divide en cinco pasos: (1) control de calidad de los datos; (2) mapeo y anotación de genes; (3) análisis estadístico para identificar genes expresados diferencialmente y genes coexpresados; (4) determinación del grado molecular de la perturbación de las muestras; y (5) análisis funcional. El paso 1 elimina los artefactos técnicos que pueden afectar a la calidad de los análisis posteriores. En el paso 2, los genes se mapean y anotan de acuerdo con los protocolos de biblioteca estándar. El análisis estadístico en el paso 3 identifica genes que se expresan diferencialmente o coexpresan en muestras infectadas, en comparación con las no infectadas. La variabilidad de la muestra y la presencia de posibles valores biológicos atípicos se verifican utilizando el enfoque de grado molecular de perturbación en el paso 4. Finalmente, el análisis funcional en el paso 5 revela las vías asociadas con el fenotipo de la enfermedad. La tubería presentada tiene como objetivo apoyar a los investigadores a través del análisis de datos de ARN-seq de estudios de interacción huésped-patógeno e impulsar futuros experimentos in vitro o in vivo , que son esenciales para comprender el mecanismo molecular de las infecciones.
Los arbovirus, como el dengue, la fiebre amarilla, el chikungunya y el zika, se han asociado ampliamente con varios brotes endémicos y se han convertido en uno de los principales patógenos responsables de infectar a los humanos en las últimas décadas1,2. Las personas infectadas con el virus chikungunya (CHIKV) a menudo tienen fiebre, dolor de cabeza, erupción cutánea, poliartralgia y artritis3,4,5. Los virus pueden subvertir la expresión génica de la célula e influir en varias vías de señalización del huésped. Recientemente, los estudios de transcriptoma sanguíneo utilizaron RNA-seq para identificar los genes expresados diferencialmente (DEG) asociados con la infección aguda por CHIKV en comparación con la convalecencia6 o los controles sanos7. Los niños infectados con CHIKV tenían genes regulados al alza que están involucrados en la inmunidad innata, como los relacionados con los sensores celulares para el ARN viral, la señalización JAK/STAT y las vías de señalización del receptor tipo toll6. Los adultos infectados agudamente con CHIKV también mostraron inducción de genes relacionados con la inmunidad innata, como los relacionados con los monocitos y la activación de las células dendríticas, y con las respuestas antivirales7. Las vías de señalización enriquecidas con genes regulados a la baja incluyeron las relacionadas con la inmunidad adaptativa, como la activación y diferenciación y enriquecimiento de células T en células T y B7.
Se pueden utilizar varios métodos para analizar los datos del transcriptoma de los genes huésped y patógeno. A menudo, la preparación de la biblioteca RNA-seq comienza con el enriquecimiento de transcripciones maduras de poli-A. Este paso elimina la mayor parte del ARN ribosómico (ARNr) y, en algunos de los casos, los ARN virales/bacterianos. Sin embargo, cuando la cuestión biológica involucra la detección de la transcripción del patógeno y el ARN se secuencia independientemente de la selección anterior, se podrían detectar muchas otras transcripciones diferentes mediante secuenciación. Por ejemplo, se ha demostrado que los ARNm subgenómicos son un factor importante para verificar la gravedad de las enfermedades8. Además, para ciertos virus como CHIKV y SARS-CoV-2, incluso las bibliotecas enriquecidas con poli-A generan lecturas virales que se pueden utilizar en análisis posteriores9,10. Cuando se centran en el análisis del transcriptoma del huésped, los investigadores pueden investigar la perturbación biológica a través de las muestras, identificar genes expresados diferencialmente y vías enriquecidas, y generar módulos de coexpresión7,11,12. Este protocolo destaca los análisis de transcriptomas de pacientes infectados por CHIKV e individuos sanos utilizando diferentes enfoques bioinformáticos (Figura 1A). Se utilizaron datos de un estudio publicado previamente7 que consta de 20 individuos sanos y 39 infectados agudamente por CHIKV para generar los resultados representativos.
Las muestras utilizadas en este protocolo fueron aprobadas por los comités de ética tanto del Departamento de Microbiología del Instituto de Ciencias Biomédicas de la Universidad de São Paulo como de la Universidad Federal de Sergipe (Protocolos: 54937216.5.0000.5467 y 54835916.2.0000.5546, respectivamente).
1. Instalación de escritorio de Docker
NOTA: Los pasos para preparar el entorno de Docker son diferentes entre los sistemas operativos (SO). Por lo tanto, los usuarios de Mac deben seguir los pasos enumerados como 1.1, los usuarios de Linux deben seguir los pasos enumerados como 1.2 y los usuarios de Windows deben seguir los pasos enumerados como 1.3.
2. Control de calidad de los datos
NOTA: Evalúe, gráficamente, la probabilidad de errores en las lecturas de secuenciación. Elimine todas las secuencias técnicas, por ejemplo, adaptadores.
3. Cartografía y anotación de muestras
NOTA: Después de obtener las lecturas de buena calidad, estas deben ser mapeadas al genoma de referencia. Para este paso, se utilizó el asignador STAR para asignar los ejemplos de ejemplo. La herramienta STAR mapper requiere 32 GB de memoria RAM para cargar y ejecutar las lecturas y el mapeo del genoma. Para los usuarios que no tienen 32 GB de memoria RAM, se pueden usar lecturas ya asignadas. En tales casos, vaya al paso 3.3 o use el mapeador Bowtie2. Esta sección tiene scripts para STAR (resultados que se muestran en todas las figuras) y Bowtie2 (mapeador de baja memoria requerida).
4. Genes expresados diferencialmente y genes coexpresados
5. Determinación del grado molecular de perturbación de las muestras
6. Análisis de enriquecimiento funcional
El entorno informático para los análisis de transcriptomas se creó y configuró en la plataforma Docker. Este enfoque permite a los usuarios principiantes de Linux utilizar sistemas de terminal Linux sin conocimientos de gestión a priori. La plataforma Docker utiliza los recursos del sistema operativo host para crear un contenedor de servicios que incluye herramientas de usuarios específicos (Figura 1B). Se creó un contenedor basado en la distribución Linux OS Ubuntu 20.04 y se configuró completamente para análisis transcriptómicos, al que se puede acceder a través del terminal de línea de comandos. En este contenedor, hay una estructura de carpetas predefinida para conjuntos de datos y scripts que es necesaria para todos los análisis de canalización (Figura 1C). Para los análisis se utilizó un estudio publicado por nuestro grupo de investigación7 , que comprendió 20 muestras de individuos sanos y 39 muestras de individuos infectados agudamente por CHIKV (Figura 1D).
El proceso de secuenciación total del ARN puede generar errores de lectura, que pueden ser causados por un cúmulo con dos o más transcripciones o el agotamiento de los reactivos. Las plataformas de secuenciación devuelven un conjunto de archivos "FASTQ" que contienen la secuencia (lectura) y la calidad asociada para cada base de nucleótidos (Figura 2A). La escala de calidad phred indica la probabilidad de una lectura incorrecta de cada base (Figura 2B). Las lecturas de baja calidad pueden generar un sesgo o una expresión génica inadecuada, lo que desencadena errores sucesivos en los análisis posteriores. Se desarrollaron herramientas como Trimmomatic para identificar y eliminar lecturas de baja calidad de muestras y para aumentar la probabilidad de lecturas de mapeo (Figura 2C, D).
El módulo de mapeo fue preconfigurado con el alineador STAR y el huésped humano GRCh38 como genoma de referencia. En este paso, las lecturas de alta calidad recuperadas del paso anterior se utilizan como entrada para alinearse con el genoma humano de referencia (Figura 3A). El alineador STAR genera una alineación de lecturas asignadas a un genoma de referencia en el archivo de formato BAM. Sobre la base de esta alineación, la herramienta FeatureCounts realiza la anotación de entidades (genes) de las lecturas alineadas utilizando la anotación de referencia del host humano en formato de archivo GTF (Figura 3B). Finalmente, se genera la matriz de expresión con cada nombre de gen como una fila, y cada muestra como una columna (Figura 3C). También es necesario proporcionar un archivo de metadatos adicional que contenga los nombres de muestra y los respectivos grupos de muestra para un análisis posterior posterior. La matriz de expresión génica representa el número de recuentos asignados a cada gen entre las muestras, que se puede utilizar como entrada EdgeR para identificar DEG. Además, esta matriz de expresión génica se normalizó utilizando TMM y CPM con el fin de eliminar la variabilidad técnica y corregir la medición de ARN-seq considerando la proporción de genes expresados en el tamaño total de la biblioteca entre las muestras. Esta matriz se utilizó además como insumo para los análisis de coexpresión y MDP.
CEMiTool identifica y analiza los módulos de coexpresión12. Los genes que están en el mismo módulo se coexpresan, lo que significa que exhiben patrones similares de expresión en las muestras del conjunto de datos. Esta herramienta también permite la exploración de la importancia biológica de cada módulo identificado. Para ello, proporciona tres análisis opcionales: análisis de enriquecimiento funcional por GSEA, análisis de enriquecimiento funcional por análisis de sobrerrepresentación (ORA) y análisis de red. El análisis de enriquecimiento funcional realizado por GSEA proporciona información sobre la expresión génica de cada módulo en cada fenotipo (Figura 4A). De acuerdo con esto, permite la identificación de los módulos que son reprimidos o inducidos en cada fenotipo. El análisis ORA muestra las 10 principales funciones biológicas significativamente enriquecidas de cada módulo ordenadas por valores p ajustados. Es posible combinar los resultados de GSEA y ORA para identificar procesos biológicos deteriorados y si están siendo reprimidos o inducidos por el fenotipo de interés. Los análisis de red proporcionan un interactoma de cada módulo (Figura 4A). Permite la visualización de cómo interactúan los genes de cada módulo. Además de esto, el análisis de red proporciona información sobre los genes más conectados, los hubs, que se identifican por sus nombres en la red. El tamaño de los nodos representa el grado de conectividad.
Para identificar los DEG, se desarrolló un script interno para ejecutar un análisis diferencial de extremo a extremo en una línea de comandos concisa y unidireccional. El script realiza todos los pasos necesarios para realizar un análisis DEG, comparando diferentes grupos de ejemplo proporcionados por el usuario en un archivo de metadatos. Además, los resultados de DEG se almacenan en listas separadas de genes regulados a la baja y regulados al alza, y luego se compilan en una figura lista para su publicación (Figura 4B) utilizando el paquete EnhancedVolcano R de Bioconductor.
El análisis del grado molecular de perturbación realizado por la herramienta MDP nos permite identificar muestras perturbadas de individuos sanos e infectados11. La puntuación de perturbación se calcula considerando todos los genes expresados para cada muestra infectada con CHIKV y considerando las muestras sanas como el grupo de referencia (Figura 5A). MDP también realiza el análisis utilizando solo el 25% superior de los genes más perturbados de esas muestras (Figura 5B). Las muestras pueden presentar una gran variabilidad dados los antecedentes genéticos, la edad, el sexo u otras enfermedades previas. Estos factores pueden cambiar el perfil del transcriptoma. Sobre la base de esto, MDP sugiere qué muestras son valores atípicos biológicos potenciales para eliminarlas y mejorar los resultados posteriores (Figura 5A, B).
Se puede realizar un análisis de enriquecimiento funcional por ORA utilizando Enrichr para identificar el significado biológico de los DEG. Los resultados proporcionados en base a la lista de genes regulados a la baja indican los procesos biológicos reprimidos en el fenotipo estudiado, mientras que los resultados proporcionados en base a la lista de genes regulados al alza presentan los procesos biológicos que se inducen en el fenotipo de interés. Los procesos biológicos mostrados en el gráfico de barras generado por Enrichr son los 10 mejores conjuntos de genes enriquecidos basados en la clasificación del valor p (Figura 6).
Figura 1: Docker de entorno y estudio de ejemplo. (A) La plataforma Docker utiliza los recursos del host del sistema operativo para crear "contenedores" para el sistema Linux que contienen herramientas para análisis de transcriptomas. (B) El contenedor Docker simula un sistema Linux para ejecutar scripts de canalización. (C) La estructura de carpetas de la canalización del transcriptoma se creó y organizó para almacenar conjuntos de datos y scripts para su análisis. (D) El estudio de nuestro grupo se utilizó como ejemplo de análisis de transcriptomas. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2: Control de calidad de la secuenciación. (A) El archivo de formato FASTQ se utiliza para representar la calidad de la secuencia y la base de nucleótidos. (B) Ecuación de puntuación de Phred, donde cada 10 aumenta una base de probabilidad de lectura errónea de registro. (C) y (D) El Boxplot representa una distribución de calidad de cada base de nucleótidos antes y después de la ejecución trimmomática, respectivamente. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3: Proceso de mapeo y anotación desde la secuencia hasta la expresión del recuento de genes. (A) El mapeo consiste en alinear la secuencia de la transcripción y la secuencia del genoma para identificar la localización genómica. (B) Las lecturas mapeadas al genoma de referencia se anotan en función de su localización genómica de superposición. (C) Sobre la base de las herramientas de archivo de mapeo como featureCounts, se resume la expresión génica. Haga clic aquí para ver una versión más grande de esta figura.
Figura 4: Red de genes coexpresados y análisis estadístico de DEGs. (A) Módulos de coexpresión basados en la expresión génica y la red de interacciones proteína-proteína a partir de genes módulo. (B) Análisis estadístico de individuos sanos e infectados agudamente por CHIKV, y expresión génica diferencial en rojo (criterios p-value y log2FC), púrpura (solo p-value), verde (solo log2FC) y gris (sin significación). Haga clic aquí para ver una versión más grande de esta figura.
Figura 5: Grado molecular de perturbación (MDP) de individuos sanos e infectados agudamente por CHIKV. (A) Puntuación de MDP para cada muestra utilizando todos los genes expresados del transcriptoma. (B) Puntuación MDP para cada muestra utilizando solo el 25% superior de los genes más perturbados. Haga clic aquí para ver una versión más grande de esta figura.
Figura 6: Análisis funcional para DEG. (A) Los genes regulados hacia arriba y (B) regulados hacia abajo se enviaron a la herramienta del sitio web de Enrichr para evaluar las vías biológicas o los conjuntos de genes representativos. Se calcularon los valores de P para cada vía y solo se mostraron diferencias significativas en el gráfico. Haga clic aquí para ver una versión más grande de esta figura.
La preparación de las bibliotecas de secuenciación es un paso crucial para responder a las preguntas biológicas de la mejor manera posible. El tipo de transcripciones de interés del estudio guiará qué tipo de biblioteca de secuenciación se elegirá e impulsará los análisis bioinformáticos. Por ejemplo, a partir de la secuenciación de un patógeno y la interacción del huésped, de acuerdo con el tipo de secuenciación, es posible identificar secuencias de ambos o solo de las transcripciones del huésped.
El equipo de secuenciación de próxima generación, por ejemplo, la Plataforma Illumina, mide las puntuaciones de calidad de secuenciación, lo que representa la probabilidad de que una base se llame incorrectamente. Los análisis posteriores son muy sensibles a las secuencias de baja calidad y conducen a una expresión génica poco leída o mal leída. Otro obstáculo para realizar análisis e interpretación correctos son las secuencias adaptadoras. Las secuencias de adaptadores ayudan en la preparación y secuenciación de bibliotecas, y en la mayoría de los casos, los adaptadores también se secuencian. Estudios recientes han identificado que el impacto de la herramienta de mapeo en los resultados finales es mínimo13. Sin embargo, en los estudios de patógenos-huéspedes, el proceso de mapeo puede generar resultados ligeramente mejores al probar diferentes umbrales para minimizar el problema de las secuencias de locus mapeados múltiples.
Los resultados de la expresión génica diferencial deben interpretarse con cierta precaución, especialmente cuando el número de muestras por grupo es muy pequeño y las muestras provienen de diferentes ensayos e interfieren por efectos de lotes en el resultado de los DEG. Estos resultados son sensibles a varios factores: (i) el filtrado de datos aplicado, como la eliminación de genes de baja expresión y el número de muestras a mantener; (ii) diseño del estudio, para comparar solo entre grupos de muestra o cada paciente infectado vs todos los pacientes de control, como se ilustra en el estudio CHIKV7; y iii) método estadístico utilizado para identificar los DEG. Aquí, ilustramos un ejemplo básico con EdgeR para identificar DEG asumiendo un valor p umbral de 0.05. También se sabe en la literatura que, en comparación con otros métodos de referencia, EdgeR puede tener un amplio rango de variabilidad en la identificación de DEGs14. Se podría considerar la disyuntiva entre estos diferentes métodos y tener en cuenta el número de réplicas disponibles y la complejidad del diseño experimental14.
CEMiTool realiza análisis de módulos de coexpresión12. Esta herramienta está disponible a través del paquete R en el repositorio bioconductor y también está disponible en una versión fácil de usar a través de webCEMiTool; esta última es la versión utilizada en este protocolo actual. Se trata de un software alternativo en relación con WGCNA15 que presenta varios beneficios en comparación con este último16, entre ellos el hecho de que es más fácil de usar17. Además, esta herramienta tiene un método automático para filtrar genes, mientras que en WGCNA el usuario debe filtrar los genes antes del uso de WGCNA. Además, esta herramienta tiene establecidos parámetros por defecto, mientras que en WGCNA el usuario debe seleccionar manualmente los análisis de parámetros. La selección manual de parámetros perjudica la reproducibilidad; por lo tanto, la selección automática de parámetros garantiza una mejor reproducibilidad.
En ciertos casos, CEMiTool no es capaz de encontrar un umbral suave apropiado, también llamado valor de β. En este caso, el usuario debe comprobar si los datos de RNA-seq presentan una fuerte dependencia de la varianza media. Si la media exhibe una fuerte relación lineal con la varianza (considerando todos los genes), el usuario debe volver a ejecutar los análisis verificando el parámetro "Apply VST" para eliminar la dependencia media-varianza de los datos transcriptómicos. Siempre es fundamental comprobar si existe una fuerte dependencia de la varianza media en los datos y eliminarlos cuando estén presentes.
CEMiTool se ha utilizado ampliamente para identificar y explorar el significado biológico de los módulos de coexpresión. Un estudio de infección aguda por CHIKV mostró un módulo con mayor actividad en pacientes después de 2 a 4 días de la aparición de los síntomas7. El enriquecimiento funcional de este módulo por ORA exhibió un aumento de monocitos y neutrófilos7. Un estudio de vacunación contra la influenza utilizando transcriptoma sanguíneo desde el inicio hasta el día 7 después de la vacunación presentó módulos de coexpresión funcionalmente enriquecidos para procesos biológicos relacionados con T, B y células asesinas naturales, monocitos, neutrófilos, respuestas de interferón y activación plaquetaria18.
Teniendo en cuenta la variabilidad de los datasets transcriptómicos, identificar y cuantificar la heterogeneidad de los datos puede ser un desafío ya que muchas variables pueden influir en el perfil de expresión génica7,11. MDP proporciona una forma de identificar y cuantificar muestras perturbadas de sujetos sanos e infectados siguiendo estos pasos: (i) calcular un método de centralidad (mediana o media) y desviación estándar de muestras de control; ii) utilizar los valores obtenidos para calcular la puntuación z de todos los genes; iii) establecer un umbral z-score absoluto superior a 2, indicando desviaciones representativas de las muestras de control; y (iv) calcular el promedio de los valores genéticos utilizando las puntuaciones filtradas para cada muestra. A pesar de tener algunas limitaciones para el análisis scRNA-seq, esta herramienta fue funcional para determinar la puntuación de perturbación a partir de datos de microarrays y ARN-seq11. Además, un estudio previo ha utilizado esta herramienta para demostrar el grado molecular de perturbación elevado en el transcriptoma sanguíneo en pacientes con tuberculosis y diabetes mellitus19. En este trabajo, se ha demostrado la perturbación de muestras de control y CHIKV infectadas agudamente utilizando individuos sanos como grupo de referencia.
El análisis de enriquecimiento funcional realizado por Enrichr es el ORA20,21. ORA es un tipo de análisis de enriquecimiento funcional en el que el usuario debe proporcionar la lista de DEG a la herramienta. La lista de DEG generalmente se separa en una lista de DEG regulada a la baja y en una lista de DEG regulada al alza. Existen otras herramientas para realizar ORA, entre ellas, el gProfiler, que está disponible en una versión web fácil de usar22 y el goseq23 que está disponible como un paquete R en Bioconductor. Otro tipo de análisis de enriquecimiento funcional es GSEA. Para realizar GSEA, el usuario debe proporcionar todos los genes en una lista clasificada. Esta lista generalmente se clasifica de acuerdo con la expresión génica en el cambio de pliegue.
Enrichr siempre proporciona los 10 mejores conjuntos de genes enriquecidos en función de sus valores p en el resultado del gráfico de barras. Por lo tanto, el usuario debe estar alerta al interpretar los resultados, si hay menos de 10 conjuntos de genes enriquecidos, el gráfico de barras también mostrará procesos biológicos no enriquecidos. Para evitar este error, el usuario debe establecer un punto de corte para el valor p y observar los valores p de las vías antes de asumir que todos los conjuntos de genes del gráfico de barras están enriquecidos. Además, el usuario debe ser consciente de que el orden de los 10 conjuntos de genes que se muestran en el gráfico de barras es de acuerdo con los valores p, no con los valores p ajustados. En caso de que el usuario quiera mostrar todas las rutas enriquecidas en un gráfico de barras o incluso reordenar de acuerdo con los valores p ajustados, se recomienda que el usuario cree su propio gráfico de barras utilizando la tabla descargada. El usuario puede hacer un nuevo gráfico de barras utilizando Excel o incluso el software R.
Los autores no tienen nada que revelar.
HN es financiado por la FAPESP (números de subvención: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5 y 2013/08216-2) y CNPq (313662/2017-7).
Estamos particularmente agradecidos a las siguientes becas para becarios: ANAG (Proceso FAPESP 2019/13880-5), VEM (Proceso FAPESP 2019/16418-0), IMSC (Proceso FAPESP 2020/05284-0), APV (Proceso FAPESP 2019/27146-1) y, RLTO (Proceso CNPq 134204/2019-0).
Name | Company | Catalog Number | Comments |
CEMiTool | Computational Systems Biology Laboratory | 1.12.2 | Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs. |
EdgeR | Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au]) | 3.30.3 | Differential expression analysis of RNA-seq expression profiles with biological replication |
EnhancedVolcano | Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk]) | 1.6.0 | Publication-ready volcano plots with enhanced colouring and labeling |
FastQC | Babraham Bioinformatics | 0.11.9 | Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing |
FeatureCounts | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.0.0 | Assign mapped sequencing reads to specified genomic features |
MDP | Computational Systems Biology Laboratory | 1.8.0 | Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls |
R | R Core Group | 4.0.3 | Programming language and free software environment for statistical computing and graphics |
STAR | Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research | 2.7.6a | Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments |
Bowtie2 | Johns Hopkins University | 2.4.2 | Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences |
Trimmomatic | THE USADEL LAB | 0.39 | Trimming adapter sequence tasks for Illumina paired-end and single-ended data |
Get Docker | Docker | 20.10.2 | Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/) |
WSL2-Kernel | Windows | NA | https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel |
Get Docker Linux | Docker | NA | https://docs.docker.com/engine/install/ubuntu/ |
Docker Linux Repository | Docker | NA | https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository |
MDP Website | Computational Systems Biology Laboratory | NA | https://mdp.sysbio.tools |
Enrichr Website | MaayanLab | NA | https://maayanlab.cloud/Enrichr/ |
webCEMiTool | Computational Systems Biology Laboratory | NA | https://cemitool.sysbio.tools/ |
gProfiler | Bioinformatics, Algorithmics and Data Mining Group | NA | https://biit.cs.ut.ee/gprofiler/gost |
goseq | Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk]) | NA | http://bioconductor.org/packages/release/bioc/html/goseq.html |
SRA NCBI study | NCBI | NA | https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/ |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados