Method Article
Aquí presentamos la herramienta proteogenomic PoGo y protocolos para la modificación rápida, cuantitativo, poste-de translación y variante activado mapeo de péptidos identificados a través de espectrometría de masas en los genomas de referencia. Esta herramienta es de uso para integrar y visualizar proteogenomic y estudios proteómicos personal con datos de genómica ortogonal.
La diafonía entre los genes, transcritos y proteínas es la clave de respuestas celulares; por lo tanto, el análisis de niveles moleculares como entidades distintas lentamente se extiende a estudios integrativos para mejorar la comprensión de la dinámica molecular dentro de las células. Herramientas actuales para la visualización y la integración de la proteómica con otros conjuntos de datos ómicos son inadecuadas para estudios a gran escala. Además, capturan sólo secuencia básica identificar, descartar modificaciones post-traduccionales y cuantificación. Para enfrentar estos problemas, hemos desarrollado PoGo para péptidos con modificaciones post-traduccionales asociadas y cuantificación para anotación del genoma de referencia. Además, la herramienta fue desarrollada para permitir el mapeo de péptidos identificados de bases de datos de secuencia personalizada incorporando variantes solo aminoácido. Mientras que el PoGo es una herramienta de línea de comandos, la interfaz gráfica PoGoGUI permite a los investigadores de la bioinformática no fácilmente mapa péptidos a 25 especies apoyadas por anotación del genoma de Ensembl. La salida generada toma los formatos de archivo en el campo de la genómica y, por lo tanto, la visualización es compatible en la mayoría de los navegadores de genoma. Para estudios a gran escala, PoGo es apoyada por TrackHubGenerator para crear repositorios web accesible de datos asignados a genomas que también permiten un fácil intercambio de datos de proteogenomics. Con poco esfuerzo, esta herramienta puede asignar millones de péptidos a genomas de referencia dentro de pocos minutos, superando a otras herramientas disponibles secuencia-identidad basada. Este protocolo muestra los mejores enfoques para la asignación de proteogenomics a través de PoGo con conjuntos de datos públicamente disponibles de cuantitativa y fosfoproteómico, así como estudios de gran escala.
En las células, genoma, transcriptoma y proteoma afectan para modular una respuesta a los estímulos internos y externos e interactuar con otros para llevar a cabo funciones específicas hacia la salud y la enfermedad. Por lo tanto, caracterizar y cuantificar genes, transcritos y proteínas es crucial para comprender cabalmente los procesos celulares. Secuenciación de próxima generación (NGS) es una de las estrategias más comúnmente aplicadas para identificar y cuantificar la expresión génica y la transcripción. Sin embargo, expresión de la proteína es comúnmente evaluada por espectrometría de masas (MS). Avances significativos en tecnología MS durante la última década ha permitido más una completa identificación y cuantificación de proteomas, hacer los datos comparables con transcriptómica1. Proteogenomics y multi-ómicas como formas de integrar datos NGS y MS se han convertido en poderosos enfoques para evaluar procesos celulares a través de múltiples niveles moleculares, identificar subtipos de cáncer y conduce a nuevos objetivos potenciales de la droga en cáncer2 , 3. es importante tener en cuenta que proteogenomics fue utilizado inicialmente para proporcionar evidencia de la proteómica para gene y transcripción de las anotaciones4. Varios genes se pensaba que no codificante recientemente han sido sometidos a reevaluación considerando tejido humano a gran escala datos5,6,7. Además, los datos proteómicos se utilizan con éxito para apoyar los esfuerzos de anotación en organismos no-modelo8,9. Sin embargo, proteogenomic integración de datos pueden ser aprovechados además de resaltar la expresión de proteína en relación a características genómicas y dilucidar entre transcripciones y proteínas proporcionando un sistema de referencia combinado y métodos para visualización conjunta.
Con el fin de proporcionar una referencia común para datos de genómica, transcriptómica y proteómica, se han implementado numerosas herramientas para péptidos de mapeo identificadas a través de MS sobre genoma coordenadas10,11,12 ,13,14,15,16,17. Enfoques difieren en aspectos tales como la referencia de la cartografía, soporte de navegadores de genoma y el grado de integración con otras herramientas de proteómica como se muestra en la figura 1. Mientras que algunas herramientas mapa de péptidos traducción inversas en un genoma16, otros utilizan una posición de búsqueda motor anotado en una anotación de la proteína y gen para reconstruir la secuencia de nucleótidos del péptido15. Todavía otros utilizan una traducción de 3 o 6 marco del genoma a péptidos contra11,13. Por último, varias herramientas saltar las secuencias de nucleótido y utilizan las traducciones de secuencia del aminoácido de transcritos de RNA-secuencia asignada como intermedio para asignar péptidos a genoma asociado coordenadas10,12, 14,17. Sin embargo, la traducción de secuencias de nucleótidos es un proceso lento y bases de datos personalizadas son propensos a errores que se propagan a la asignación de péptido. Para el mapeo rápido y alto rendimiento, una referencia pequeña y completa es fundamental. Por lo tanto, una referencia estandarizada proteína con coordenadas genoma asociado es esencial para péptido precisa cartografía del genoma. Aspectos novedosos en proteogenomics, como la incorporación de variantes y modificaciones post-traduccionales (PTMs)2,3, están ganando impulso a través de estudios recientes. Sin embargo, estos generalmente no son compatibles con proteogenomic actual asignación de herramientas como se muestra en la figura 1. Para mejorar la velocidad y la calidad de la cartografía, PoGo se desarrolló una herramienta que permite la asignación rápida y cuantitativa de los péptidos a genomas18. Además, PoGo permite el mapeo de péptidos con hasta dos variantes y modificaciones postraduccionales anotadas.
PoGo se ha desarrollado para enfrentar el rápido aumento de cuantitativa conjuntos de datos de alta resolución captura de proteomas y modificaciones globales y proporciona una herramienta central para los análisis a gran escala como variación personal y medicina de precisión. Este artículo describe el uso de esta herramienta para visualizar la presencia de modificaciones post-traduccionales en lo referente a características genómicas. Además, este artículo destaca la identificación de eventos alternativos que empalma a través de péptidos asignadas y el mapeo de péptidos identificados a través de bases de datos variante personalizados para un genoma de referencia. Este protocolo utiliza conjuntos de datos públicamente disponibles de orgullo archivo19 al demostrar estas funcionalidades de PoGo. Además, este protocolo describe el uso de TrackHubGenerator para la creación de centros en línea accesibles de péptidos mapeados genomas para estudios a gran escala proteogenomics.
1. preparación, descarga y configuración
Nota: Los ejemplos de ruta de archivo y la carpeta se muestran en un formato de Windows por la facilidad de acceso para los usuarios estándar. PoGo y PoGoGUI también están disponibles para sistemas de operativos Linux y macOS.
2. mapeo de péptidos con modificaciones post-traduccionales anotadas y la visualización incluyendo cuantificación
Nota: El archivo de salida resultante se puede cargar en cualquier navegador de genoma que soporte el formato de datos Extensible navegador (cama). Una selección de los navegadores es el navegador de genoma integrante (IGV)24 (que se utiliza en el siguiente), el Browser del genoma de UCSC25y el Browser del genoma de Ensembl20. Es importante tener en cuenta que la anotación GMT proteína FASTA versiones y usadas para cartografiar la PoGo coincida con la versión del genoma en el browser del genoma. Para comunicados de Ensembl humanos 57-75 y GENCODE versiones 3d-19, usar GRCh37/hg19; para las versiones de Ensembl 76 o superiores y GENCODE 20 o superior, utilice GRCh38/hg38. Para las versiones de Ensembl de ratón 74 o superiores y GENCODE M2 o superior, utilice GRCm38.
3. mapeo de péptidos identificados a través de una base de datos personalizada variante a un genoma de referencia
Nota: PoGo asignación posible usando la interfaz gráfica de usuario (GUI) o a través de la interfaz de línea de comandos. Son intercambiables. En esta parte del Protocolo, la interfaz de línea de comando se utiliza para resaltar la capacidad de intercambio. La segunda parte de esta sección del protocolo requiere que el software herramienta R26. Asegúrese de que está instalado el paquete.
4. mapeo usando múltiples archivos y la generación de ejes de pista para grandes conjuntos de datos
Una representación gráfica, resaltando en que etapa de un flujo de trabajo regular proteómicos PoGo18 se aplica, así como de aguas abajo opciones de visualización, se muestra en la figura 5. Proteomics de la escopeta (es decir, la digestión proteolítica de proteínas seguida de cromatografía de líquidos acompañada con espectrometría total en tándem) es un paso precursor de mapeo de proteogenomic. La espectrometría de masas tándem resultantes es comúnmente en comparación con espectros teóricos derivados de las bases de datos secuencia de proteína. Estudios de Proteogenomics introducen secuencias de traducción de novela transcripciones con la codificación de variantes de un solo nucleótido no sinónimo y potenciales (SNVs) en la base de datos, lo que hace difícil relacionarse fácilmente con estos detrás el genoma de referencia8. La interfaz gráfica de usuario de PoGo (PoGoGUI) soporta formatos de archivo de informes estandarizados de identificación de péptidos de los experimentos de espectrometría de masas y las convierte en el formato simplificado de 4 columna de pogo. PoGoGUI ajusta la herramienta de línea de comandos PoGo y así permite el mapeo de péptidos en coordenadas del genoma utilizando la anotación de referencia de codificación de la proteína los genes comúnmente proporcionado en el GTF y las secuencias de transcripción traducida en formato FASTA. Formatos de salida diferentes son generados por PoGo para permitir la visualización de los diferentes aspectos de los péptidos identificados a través de espectrometría de masas, incluyendo modificaciones post-traduccionales y cuantificación de niveles de péptido. Archivos de salida en la cama más pueden ser convertidos y combinados en directorios accesibles en línea llamados pista concentradores. Archivos de salida única, así como ejes de pista, entonces se pueden visualizar en navegadores como el Browser del genoma de UCSC25Ensembl genoma navegador20, IGV24y Biodalliance28 (ver figura 5 abajo).
Aplicamos el PoGo para el reanálisis del proyecto proteoma humano mapas de filtrado en alta significación como se describe en Wright et al. 7 y respecto a dos otras herramientas para el mapeo de proteogenomic, a saber: iPiG14 y PGx10. El conjunto de datos compuesta por 233.055 péptidos únicos a través de 59 tejidos adultos y fetales, lo que resulta en un total de más 3 millones de secuencias. PoGo superó a estas herramientas en tiempo de ejecución (6,9 y 96.4 x más rápido, respectivamente) y uso de la memoria (20% y 60% menos de memoria, respectivamente) como se muestra en la figura 618. En la figura 7se muestra un ejemplo de un péptido con éxito asignado.
Mientras que PoGo superaron significativamente a las otras herramientas en velocidad y memoria, es también capaz de modificaciones poste-de translación de la cartografía y la información cuantitativa asociada a péptidos en el genoma. Figura 8A muestra esquemáticamente la visualización del formato de cama en un browser del genoma para péptidos traz a un exón y en empalme a ensambladuras. PoGo utiliza la opción de colorear para proporcionar fácil ayuda visual con respecto a la singularidad del mapeo de péptidos dentro del genoma. Asignaciones en rojo indican exclusividad a una sola transcripción, mientras que reflejos negro a un solo gen. Sin embargo, el péptido se comparte entre diferentes transcripciones. Asignaciones de gris muestran un péptido compartido entre múltiples genes. Estas son, por ejemplo, menos confiable para la cuantificación de un gen o llamar a la expresión de un gene. La opción de cama de PTM de PoGo redefine el código de colores para adaptarse a diferentes tipos de modificaciones post-traduccionales como se muestra en la figura 8B. Además, PTMs se indican por gruesos bloques (ver figura 8B). Un PTM solo de un tipo se destaca por un grueso bloque en la posición del residuo del aminoácido modificado, mientras que PTMs múltiples del mismo tipo están atravesados por un grueso bloque desde el primer aminoácido modificado a la última.
Aplicamos el PoGo y posteriormente TrackHubGenerator a un conjunto de datos de 50 líneas celulares de cáncer colorrectal como todo proteoma y phosphoproteome29. Mientras que el eje de pista cargado en el Browser del genoma de UCSC muestra los péptidos asignados al genoma y pone de relieve la singularidad de las asignaciones y los sitios de fosforilación (ver figura 9), datos adicionales se encuentran en la carpeta complementaria. Los archivos GCT luego activar la visualización de la cuantificación del péptido y fosfopéptidos en un contexto genómico. Sin embargo, los archivos GCT proporciona una visualización fácil de los péptidos que atraviesan a través de uniones de empalme (ver arriba figura 10 ). Los péptidos a través de uniones de empalme se dividen en sus partes respectivas a los exones. Si bien es posible identificar péptidos de empalme a través de los mismos valores cuantitativos de las asignaciones de exón, asignación de secuencia de carga archivos como cama o GTF que conectan los exones de un intrón delgado que soporte la interpretación (ver figura 10 parte inferior).
Para resaltar la utilidad de la variante con mapping, aplicamos PoGo en dos configuraciones a un conjunto de datos de proteoma humano testis búsquedas contra neXtProt a la caza de falta proteínas usando una estrategia de múltiples enzimas22. La neXtProt comprende además secuencias de la proteína de referencia sobre 5 millones de variantes solo aminoácido30. Mapeo de péptidos identificados con la variante de un solo aminoácido no es compatible con otras herramientas de mapeo. Se identificaron un total de 177.012 péptidos únicos. De estos péptidos 99.8% (176.694) primero fueron mapeadas con éxito sin permitir que las discrepancias. Quitar de la lista de péptido identificado dio lugar a péptidos de 0.2% (318) que posteriormente fueron asignadas permitiendo una substitución del aminoácido. Esto dio lugar a 3.446 asignaciones de 162 péptidos que no hubiera sido asignados al genoma de referencia con cualquier otra herramienta disponible. Mientras que el promedio de las asignaciones como una falta de coincidencia es alta, 62 péptidos fueron asignados a solamente un solo locus, indicando secuencias variante verdadera. Un ejemplo de un péptido con una sola substitución del aminoácido se destaca con su secuencia y la secuencia genomic traducida en la figura 11.
Figura 1. Comparación visual de herramientas de mapeo de péptidos a genoma diferentes. La comparación se muestra en varios aspectos. Estos aspectos incluyen una referencia de la cartografía, el grado de integración en los marcos y el apoyo de buscadores online y offline. Además, se destaca por separado aspectos novedosos de proteogenomics y su compatibilidad con la función. PoGo sólo carece de la capacidad para asignar directamente a una secuencia del genoma en comparación con otras herramientas. Sin embargo, es compatible con todas las características nuevas que no es compatibles con la mayoría de las otras herramientas. Haga clic aquí para ver una versión más grande de esta figura.
Figura 2. Archivo de entrada de ejemplo de péptidos asignación. PoGo acepta datos de entrada en un formato separado por tabulador con 4 columnas. Encabezados de columna en la primera línea son 'Experimentar', 'Péptido', 'PSMs' y 'Quant', que indica en las siguientes líneas el experimento o identificador de la muestra, la secuencia del péptido, el número de péptido-espectro y un valor cuantitativo para el péptido, respectivamente. Extensiones de nombre de archivo compatibles son *.txt, *.tsv y *.pogo. Haga clic aquí para ver una versión más grande de esta figura.
Figura 3. Interfaz PoGoGUI con pasos resaltados para selecciones de archivo y opciones de parámetros. La figura muestra los pasos para seleccionar y cargar todos los archivos requeridos y la selección de opciones para péptidos de mapeo con modificaciones poste-de translación en el genoma humano de referencia. Haga clic aquí para ver una versión más grande de esta figura.
Figura 4. Captura de pantalla de los datos del visor de genómica Integrativa (IGV) Añadir procedimiento. La figura destaca los pasos para subir archivos de salida de PoGo en el navegador IGV. Además, muestra la opción de ampliar la pista de péptidos asignadas para resaltar la asignación y la secuencia. Haga clic aquí para ver una versión más grande de esta figura.
Figura 5. Simplificado de flujo de trabajo de medidas de LC-MS/MS para la visualización en navegadores de genoma. Asignación de PoGo sigue la identificación de péptidos de espectrometría de masas tándem. Para lograr el mapeo del genoma, PoGo utiliza la anotación de referencia como la anotación del genoma (GTF) y transcripción traducción secuencias (FASTA). Salida se generan formatos que se puede cargar por separado en los navegadores de genoma. Además, se pueden combinar archivos en formato cama en ejes de pista visualización de grandes conjuntos de datos de apoyo. Haga clic aquí para ver una versión más grande de esta figura.
Figura 6. PoGo benchmarking contra PGx y iPiG. PoGo supera a las otras herramientas de evaluación comparativa. Mapeo de péptidos únicos 233.055 en 59 tejidos adultos y fetales, dando por resultado sobre 3 millones de secuencias, PoGo fue de 6,9 y 96.4 x más rápido que PGx y iPiG, respectivamente. Además, PoGo requerido 20% y 60% menos memoria en comparación con PGx y iPiG, respectivamente. Mientras que PoGo y PGx terminaron con éxito, iPiG dio lugar a un error de memoria de 16 GB. Haga clic aquí para ver una versión más grande de esta figura.
Figura 7. Vista de ejemplo de explorador de genoma de UCSC de péptidos asignadas. La figura muestra péptidos asignados a la gen mTOR. Mientras que la pista combinada muestra los péptidos que atraviesan a través de uniones de empalme y asignación a un exón con las secuencias asociadas, las vías específicas de tejido sólo ponen de relieve la asignación en un formato condensado. Haga clic aquí para ver una versión más grande de esta figura.
Figura 8. Esquema de mapeo de visualización y codificación de color. (A) en el archivo de salida estándar de la cama, péptidos a un exón se muestran como bloques individuales (izquierdas), mientras que los péptidos mapeo a través de múltiples exones destaca el exón que abarca piezas como bloques (derecha). Intrones se muestran tan finos concatenación de líneas. PoGo color-codes la singularidad del trazado o péptidos y genes, transcritos usando un sistema de 3 niveles. (B) además de la estructura de bloque del formato de cama, cama de PTM salida destaca la posición de modificaciones post-traduccionales como bloques gruesos. La presencia de una PTM solo de un tipo destaca el residuo del aminoácido modificado con un espesor de bloque, mientras que varios sitios de la misma PTM se combinan en bloques de tiempo que abarca desde el primero hasta el último sitio de modificación. Asignaciones de péptidos se dividen por códec de tipo y color PTM, basado en la modificación. Haga clic aquí para ver una versión más grande de esta figura.
Figura 9. Seguimiento de centro vista en el navegador del genoma UCSC de cáncer colorrectal proteoma y phosphoproteome los datos. El centro de la pista compone de proteoma conjunto datos como phosphoproteome. Mientras que el color rojo en las pistas de proteoma y phosphoproteome indican la singularidad de la asignación a la sola transcripción de SFN, pistas en _ptm muestran los sitios de fosforilación en péptidos. Aquí, el color rojo indica el tipo de modificación como fosforilación. Sólo dos péptidos se han identificado con cada uno mostrando una única fosforilación (bloques de espesor). Haga clic aquí para ver una versión más grande de esta figura.
Figura 10. Vista de fosfotoproteida de cáncer colorrectal y cuantificación asociado en IGV. La figura muestra un subconjunto de las líneas celulares de 50 cáncer. Además muestra cuatro columnas de bloques en diferentes tonos de luz roja. El color indica la abundancia relativa de bajo (blanco) a alta (rojo). Mientras que las cuatro columnas inicialmente pueden llevar a creer que hay 4 péptidos, se hace evidente con el asociado basado en la secuencia GTF archivo de salida que de hecho son dos péptidos, que abarca a una ensambladura del empalme. Haga clic aquí para ver una versión más grande de esta figura.
Figura 11. Vista del péptido con variante de aminoácido en IGV. La figura muestra un péptido con una variante de aminoácido único asignada al genoma de referencia en el inicio de la traducción del gen GPSM1. La variante se encuentra en el residuo del aminoácido 8 y los resultados en la sustitución de alanina a valina (A→V). Las secuencias de la traducción de las transcripciones anotadas (azul) destacan la variante en comparación con la secuencia del péptido. Haga clic aquí para ver una versión más grande de esta figura.
Este protocolo describe cómo la herramienta de software PoGo y su interfaz gráfica de usuario PoGoGUI permiten un rápido mapeo de péptidos en coordenadas de genoma. La herramienta ofrece características únicas como modificación poste-de translación, cuantitativo y asignación basados en la variante de genomas mediante anotación de referencia. Este artículo muestra el método en un estudio a gran escala proteogenomic y destaca su eficiencia velocidad y memoria en comparación con otras herramientas disponibles18. En combinación con la herramienta TrackHubGenerator, que crea cubos en línea accesibles de genómica y genoma ligado de datos, PoGo, con una interfaz gráfica de usuario, estudios de proteogenomics a gran escala permite visualizar rápidamente sus datos en el contexto genómico. Además, se demuestran las características únicas del PoGo con conjuntos de datos de búsquedas en bases de datos variables y cuantitativa fosfoproteómico22,29.
Archivos individuales, como el archivo GCT, proporcionan visualización valiosa y relaciones entre características del péptido y loci genómicos. Sin embargo, es importante tener en cuenta que una interpretación basada en éstas solo puede ser difícil o engañoso debido a su limitación a solo aspectos de proteogenomics como singularidad, modificaciones post-traduccionales, valores cuantitativos. Por lo tanto, es importante elegir cuidadosamente que los archivos de salida, las opciones y combinaciones son apropiadas para la pregunta de proteogenomic en cuestión y modificar las combinaciones. Por ejemplo, información sobre la singularidad de la asignación a un locus genómico específico podría ser de gran valor para la anotación de una característica genómica7, mientras que la cuantificación en muestras diferentes puede ser más apropiada para estudios relacionados con el características genómicas a cambios en la abundancia de proteínas29. La salida debe ser generada por PoGo para cada ajuste. En caso de que no hay salida se genera, o archivos vacíos se muestran en la carpeta de salida, se recomienda que compruebe los archivos de entrada para el contenido deseado y el formato de archivo. En casos donde el contenido o formato de archivo no sigue las expectativas de PoGo (por ejemplo, el archivo FASTA que supuestamente contienen las secuencias de traducción transcripción contiene las secuencias de nucleótido de los transcritos), mensajes de error le preguntará al usuario Compruebe los archivos de entrada.
Las restricciones del protocolo y la herramienta en su mayoría se basan en la reutilización de los formatos de archivo utilizados en la genómica. Reasignación de formatos de archivo utilizados en la genómica para aplicaciones proteogenomic se acompaña de limitaciones específicas. Estas son debido a los diferentes conjuntos de requisitos para la visualización de genoma centrado de genómica y proteogenomic datos, como la necesidad de visualizar las modificaciones post-traduccionales de datos de proteómica. Esto se restringe en los formatos de archivo de genómica por el uso de una función. Han desarrollado muchos enfoques y herramientas de Proteómica con confianza localizar modificaciones post-traduccionales dentro de33,de péptido secuencias31,32,34. Sin embargo, la visualización de múltiples modificaciones de una manera única y discernible en el genoma es obstaculizada por la estructura de los formatos de archivo genómica. Por lo tanto, la visualización de bloque de PTMs múltiples del mismo tipo no constituye ninguna ambigüedad de los sitios de modificación pero es la consecuencia de la exigencia diferentes de la comunidad genómica sólo visualizar características individuales a la vez. Sin embargo, PoGo tiene la ventaja de modificaciones post-traduccionales de mapeo en coordenadas genómicas para permitir estudios centrados en el efecto de características genómicas como variantes de un solo nucleótido en modificaciones post-traduccionales. Con el PoGo, asignación variable aumenta el número de asignaciones total. Sin embargo, la codificación de color único de péptidos asignadas destaca asignaciones confiables de los poco fiables. El mapeo de péptidos variante identificada de variantes conocidas de un solo nucleótido puede acompañarse por visualizar los péptidos asignados junto a las variantes en formato VCF. De esta manera el código de color que indica una asignación poco fiable de un péptido variante es anulada por la presencia de la variante de nucleótidos conocido.
Un paso crítico para el uso de PoGo es el uso de los formatos y archivos correctos. El uso de secuencias de transcripción traducida como secuencias de la proteína para acompañar a la anotación en formato GMT es el criterio principal. Otro elemento crítico cuando se considera usar PoGo a péptidos con aminoácidos desajustes es memoria. Mientras que memoria eficientes para una aplicación estándar, significativamente y exponencialmente creciente número de posibles asignaciones con uno o dos desajustes conduce a un aumento igualmente exponencial en el uso de memoria18. Se propone una asignación de etapas como se describe en este protocolo primero los péptidos sin desajustes y quitar del conjunto. Los péptidos previamente asignados posterior entonces pueden asignarse mediante un desajuste y el procedimiento puede repetirse con dos desajustes para los péptidos restante sin asignar.
Puesto que el rendimiento de la espectrometría de masas ha aumentado significativamente y estudios interconexión genómicos y proteómicos son cada vez más frecuentes en los últimos años, son herramientas que permiten fácilmente interfaces estos tipos de datos en el mismo sistema de coordenadas cada vez más indispensable. La herramienta presentada aquí le ayudará a la necesidad de combinar genómica y los datos proteómicos para potenciar un mejor entendimiento de estudios integrados a través de pequeños y grandes conjuntos de datos mediante la asignación de péptidos en una anotación de referencia. Es alentador, PoGo se ha aplicado para asignar péptidos a los candidatos del gen en el mismo formato que la anotación de referencia para apoyar los esfuerzos de la anotación de genes nuevos en testículo humano35. El enfoque presentado aquí es independiente de bases de datos utilizadas para la identificación de péptidos. El protocolo podría ayudar en la identificación y visualización de los productos de la traducción de novela mediante el uso de había adaptado entrados archivos de secuencias de traducción y asociados archivos GTF de RNA-seq experimentos.
Varios enfoques y herramientas con una amplia gama de escenarios de aplicación especial para asignar coordenadas genómicas, desde el mapeo de péptidos directamente a la secuencia del genoma a los mapas de secuencia de RNA guiada, péptidos han sido introducidas10, 11 , 12 , 13 , 14 , 15 , 16 , 17. sin embargo, estos pueden resultar en un fracaso para asignar correctamente péptidos cuando existen modificaciones post-traduccionales y errores en el mapa subyacente de Lee de la secuencia de RNA pueden ser propagados hasta el nivel de péptido. PoGo se ha desarrollado específicamente superar esos obstáculos y hacer frente con el rápido aumento de conjuntos de datos de proteómica cuantitativa de alta resolución para integrar con plataformas de genómica ortogonal. La herramienta descrita aquí puede integrarse en flujos de trabajo de alto rendimiento. A través de la interfaz gráfica de PoGoGUI, la herramienta es fácil de usar y no requiere especialista en Bioinformática formación.
Los autores no tienen nada que revelar.
Este trabajo fue financiado por el Wellcome Trust (WT098051) y la subvención del NIH (U41HG007234) para el proyecto GENCODE.
Name | Company | Catalog Number | Comments |
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
Solicitar permiso para reutilizar el texto o las figuras de este JoVE artículos
Solicitar permisoThis article has been published
Video Coming Soon
ACERCA DE JoVE
Copyright © 2025 MyJoVE Corporation. Todos los derechos reservados