Method Article
Целью этого протокола является исследование эволюции и экспрессии генов-кандидатов с использованием данных секвенирования РНК.
Дистилляция и представление больших наборов данных, таких как данные всего генома или транскриптома, часто является сложной задачей. Один из способов разбить результаты — сосредоточиться на одном или нескольких семействах генов, которые важны для организма и исследования. В этом протоколе мы описываем биоинформативные шаги для создания филогении и количественной оценки экспрессии генов, представляющих интерес. Филогенетические деревья могут дать представление о том, как гены развиваются внутри и между видами, а также выявить орфографию. Эти результаты могут быть улучшены с использованием данных RNA-seq для сравнения экспрессии этих генов у разных людей или тканей. Исследования молекулярной эволюции и экспрессии могут выявить способы эволюции и сохранения функции генов между видами. Характеристика семейства генов может служить трамплином для будущих исследований и может выделить важное семейство генов в новом геноме или транскриптоме.
Достижения в области технологий секвенирования облегчили секвенирование геномов и транскриптомов немоделированных организмов. В дополнение к повышенной возможности секвенирования ДНК и РНК от многих организмов, обилие данных является общедоступным для изучения генов, представляющих интерес. Целью этого протокола является предоставление биоинформатических шагов для исследования молекулярной эволюции и экспрессии генов, которые могут играть важную роль в интересуемом организме.
Исследование эволюции гена или семейства генов может дать представление об эволюции биологических систем. Члены семейства генов обычно определяются путем идентификации сохраненных мотивов или гомологичных последовательностей генов. Эволюция семейства генов ранее исследовалась с использованием геномов отдаленно связанных модельных организмов1. Ограничением этого подхода является то, что неясно, как эти семейства генов развиваются у близкородственных видов и роль различных селективных давлений окружающей среды. В этот протокол мы включаем поиск гомологов у близкородственных видов. Генерируя филогенез на уровне типа, мы можем отметить тенденции в эволюции семейства генов, такие как сохранение генов или дупликации, специфичные для линии. На этом уровне мы также можем исследовать, являются ли гены ортологами или паралогами. Хотя многие гомологи, вероятно, функционируют аналогично друг другу, это не обязательно так2. Включение филогенетических деревьев в эти исследования важно для решения вопроса о том, являются ли эти гомологичные гены ортологами или нет. У эукариот многие ортологи сохраняют аналогичные функции внутри клетки, о чем свидетельствует способность белков млекопитающих восстанавливать функцию дрожжевых ортологов3. Однако есть случаи, когда неортологичный ген выполняет характерную функцию4.
Филогенетические деревья начинают очертивать отношения между генами и видами, но функция не может быть назначена исключительно на основе генетических связей. Исследования экспрессии генов в сочетании с функциональными аннотациями и анализом обогащения обеспечивают сильную поддержку функции генов. Случаи, когда экспрессия генов может быть количественно оценена и сравнена между людьми или типами тканей, могут быть более показательными для потенциальной функции. Следующий протокол следует методам, используемым при исследовании генов опсина в Hydra vulgaris7,но они могут быть применены к любому виду и любому семейству генов. Результаты таких исследований обеспечивают основу для дальнейшего изучения функции генов и генных сетей в немоделовых организмах. В качестве примера, исследование филогении опсинов, которые являются белками, которые инициируют каскад фототрансдукции, дает контекст эволюции глаз и обнаружения света8,9,10,11. В этом случае немодельные организмы, особенно базальные виды животных, такие как книдарии или гребневицы, могут прояснить сохранение или изменения в каскаде фототрансдукции и зрения черезклады 12,13,14. Точно так же определение филогении, экспрессии и сетей других семейств генов проинформирует нас о молекулярных механизмах, лежащих в основе адаптаций.
Этот протокол следует рекомендациям по уходу за животными UC Irvine.
1. Подготовка библиотеки РНК-seq
2. Доступ к кластеру компьютеров
ПРИМЕЧАНИЕ: Анализ RNA-seq требует манипуляций с большими файлами и лучше всего выполняется на компьютерном кластере (Таблица материалов).
3. Получение считывания РНК-seq
4. Обрезка адаптеров и некачественные считываемые материалы (опционально)
5. Получение эталонной сборки
6. Создание сборки de novo (альтернатива шагу 5)
7. Карта считывается с геномом (7.1) или de novo транскриптомом (7.2)
8. Определите гены, представляющие интерес
ПРИМЕЧАНИЕ: Следующие шаги могут быть выполнены с нуклеотидными или белковыми файлами FASTA, но работают лучше всего и более просты с белковыми последовательностями. Поиск BLAST с использованием белка к белку с большей вероятностью даст результаты при поиске между различными видами.
9. Филогенетические деревья
10. Визуализация экспрессии генов с помощью доверенного платформенного модуля
Приведенные выше методы обобщены на рисунке 1 и были применены к набору данных тканей Hydra vulgaris. H. vulgaris является пресноводным беспозвоночным, которое принадлежит к типу Cnidaria, который также включает кораллы, медузы и морские анемоны. H. vulgaris может размножаться бесполым путем бутонинга, и они могут регенерировать свою голову и ногу при разделении пополам. В этом исследовании мы стремились исследовать эволюцию и экспрессию генов опсина в Hydra7. В то время как у гидр отсутствуют глаза, они демонстрируют светозависимое поведение32. Гены опсина кодируют белки, которые важны для зрения, чтобы обнаружить различные длины волн света и начать каскад фототрансдукции. Исследование молекулярной эволюции и экспрессии этого семейства генов у базального вида может дать представление об эволюции глаз и обнаружении света у животных.
Мы сгенерировали управляемую сборку с использованием эталонного генома Hydra2.0 33 и общедоступных данных RNA-seq (присоединение к GEO GSE127279) Рисунок 1. Этот шаг занял примерно 3 дня. Хотя в этом случае мы не генерировали транскриптом de novo, сборка Trinity может занять до 1 недели, и каждая библиотека может занять несколько часов для чтения сопоставления в зависимости от картографа. Объединенная сборка Hydra (~ 50 000 расшифровок) была аннотирована с помощью Blast2GO, что заняло около 1 недели на рисунке 1. Последовательности генов, связанных с опсином, были извлечены в файл fasta. Последовательности генов опсина от других видов также были извлечены из NCBI GenBank. Мы использовали опсины из книдарий Podocoryna carnea, Cladonema radiatum, Tripedelia cystophoraи Nematostella vectensis,а также мы включили аутгруппы Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster и Homo sapiens. Гены опсина были выровнены на MEGA7 Рисунок 2. Просмотрев выравнивание, мы смогли идентифицировать опсины гидры, в которых отсутствовала сохраненная аминокислота лизина, необходимая для связывания светочувствительной молекулы. После визуального осмотра мы определили лучшую модель, выполнив анализ выбора модели. Мы сгенерировали дерево максимальной вероятности, используя модель LG + G + F со значением начальной загрузки 100 Рисунок 3. Для 149 генов опсина дерево было закончено примерно за 3 дня. Филогенез предполагает, что гены опсина развиваются путем специфических для линии дупликации у книдариев и, возможно, путем тандемной дупликации у H. vulgaris7.
Мы провели дифференциальный экспрессионный анализ в edgeR и рассмотрели абсолютную экспрессию генов опсина. Мы предположили, что один или несколько опсинов будут регулироваться в голове (гипостома), и провели парные сравнения гипостома с колонкой тела, почковой зоной, стопой и щупальцами. В качестве примера парного сравнения 1 774 транскрипта были дифференциально выражены между гипостомой и колонкой тела. Мы определили гены, которые были регулированы в ходе нескольких сравнений, и провели функциональное обогащение в таблице 1Blast2GO. Группировка активности рецепторов, связанных с G-белком, включала гены опсина. Наконец, мы рассмотрели абсолютную экспрессию генов опсина в разных тканях, во время бутонирования и во время регенерации, построив их значения TPM с помощью ggplot Рисунок 4. Используя методы, описанные здесь, мы идентифицировали 2 гена опсина, которые не группировались с другими опсинами в филогении, обнаружили один опсин, который был экспрессирован почти в 200 раз больше, чем другие, и мы обнаружили несколько генов опсина, экспрессируемых совместно с генами фототрансдукции, которые могут быть использованы для обнаружения света.
Рисунок 1: Схема рабочего процесса. Программы, используемые для анализа данных в компьютерном кластере, имеют синий цвет, пурпурным цветом - те, которые мы использовали на локальном компьютере, а оранжевым - веб-программу. (1) Тримм Считывает РНК-seq с использованием триммоматики v. 0.35. Если геном доступен, но генные модели отсутствуют, сгенерируйте управляемую сборку с помощью STAR v. 2.6.0c и StringTie v. 1.3.4d. (Факультативно см. Дополнительные материалы) (2) Без эталонного генома используйте обрезанные чтения для создания сборки de novo с использованием Trinity v2.8.5. (3) Для количественной оценки экспрессии генов с использованием эталонного генома карта считывается с использованием STAR и количественно определяется с помощью RSEM v. 1.3.1. Извлеките TPM с помощью RSEM и визуализируйте их в RStudio. (4) Bowtie и RSEM могут использоваться для отображения и количественной оценки считывания, сопоставленного с триечным транскриптомом. Сценарий Trinity можно использовать для создания матрицы доверенного платформенного модуля для визуализации счетчиков в RStudio. (5) Используйте веб-сайт NCBI BLAST и командную строку BLAST+ для поиска гомологичных последовательностей и подтверждения с помощью обратного BLAST. Аннотировать гены далее с помощью Blast2GO. Используйте MEGA для выравнивания генов и генерации филогенетического дерева с использованием наиболее подходящей модели. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 2: Пример выровненных генов. Снимок показывает часть генов опсина гидры, выровненных с помощью MUSCLE. Стрелка указывает местоположение консервированного лизина, связывающего сетчатку. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 3: Филогенетическое дерево книдариевого опсина. Дерево максимальной вероятности генерируется в MEGA7 с использованием последовательностей опсина из Hydra vulgaris, Podocoryna carnea, Cladonema radiatum, Tripedelia cystophora, Nematostella vectensis, Mnemiopsis leidyi, Trichoplax adhaerens, Drosophila melanogaster и Homo sapiens. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 4: Экспрессия генов Opsin у Hydra vulgaris. (A) Экспрессия в транскриптах на миллион (TPM) генов опсина Hydra vulgaris в колонке тела, почковой зоне, стопе, гипостоме и щупальцах. (B) Экспрессия генов опсина на разных стадиях бутонации гидры. (C) Экспрессия генов опсина гипостома гидры в различные временные точки регенерации. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
ИДЕНТИФИКАТОР GO | Go Имя | Категория GO | Рузвельт |
ГО:0004930 | Активность рецепторов, связанных с G-белком | МОЛЕКУЛЯРНАЯ ФУНКЦИЯ | 0.0000000000704 |
ГО:0007186 | Сигнальный путь рецепторов, связанных с G-белком | БИОЛОГИЧЕСКИЙ ПРОЦЕСС | 0.00000000103 |
ГО:0016055 | Сигнальный путь Wnt | БИОЛОГИЧЕСКИЙ ПРОЦЕСС | 0.0000358 |
ГО:0051260 | гомолигомеризация белка | БИОЛОГИЧЕСКИЙ ПРОЦЕСС | 0.000376 |
ГО:0004222 | активность металлоэндопептидазы | МОЛЕКУЛЯРНАЯ ФУНКЦИЯ | 0.000467 |
ГО:0008076 | комплекс калиевых каналов с напряжением | КЛЕТОЧНЫЙ КОМПОНЕНТ | 0.000642 |
ГО:0005249 | активность калиевого канала с напряжением | МОЛЕКУЛЯРНАЯ ФУНКЦИЯ | 0.00213495 |
ГО:0007275 | развитие многоклеточного организма | БИОЛОГИЧЕСКИЙ ПРОЦЕСС | 0.00565048 |
ГО:0006813 | транспорт ионов калия | БИОЛОГИЧЕСКИЙ ПРОЦЕСС | 0.01228182 |
ГО:0018108 | пептидил-тирозин фосфорилирование | БИОЛОГИЧЕСКИЙ ПРОЦЕСС | 0.02679662 |
Таблица 1: Функциональное обогащение генов, урегулируемых в гипостоме
Дополнительные материалы. Пожалуйста, нажмите здесь, чтобы загрузить эти материалы.
Цель этого протокола состоит в том, чтобы дать краткое описание шагов для характеристики семейства генов с использованием данных RNA-seq. Было доказано, что эти методы работают для различных видов и наборов данных4,34,35. Созданный здесь конвейер был упрощен и должен быть достаточно легким, чтобы за ним следовал новичок в биоинформатике. Значение протокола заключается в том, что он описывает все шаги и необходимые программы для завершения публикуемого анализа. Важным шагом в протоколе является правильная сборка полноразмерных транскриптов, которые исходят из высококачественных геномов или транскриптомов. Чтобы получить правильные расшифровки, необходимо высококачественное РНК и / или ДНК и хорошие аннотации, обсуждаемые ниже.
Для подготовки библиотеки RNA-seq мы включаем наборы списков, которые работали для небольших частей тела Гидры19 и бабочек18 (Таблица материалов). Отметим, что для низковходной РНК мы использовали модифицированный протокольный подход36. Методы экстракции РНК сравнивались в нескольких типах образцов, включая дрожжевые клетки17,нейробластому37,растения38и личинки насекомых16, чтобы назвать несколько. Мы рекомендуем читателю приобрести протокол, который работает для интересующих его видов, если таковые существуют, или устранить неполадки с помощью общедоступных коммерчески доступных комплектов для начала. Для правильной количественной оценки генов мы рекомендуем обрабатывать образец РНК ДНКазой. Наличие ДНК повлияет на правильную количественную оценку генов. Мы также рекомендуем использовать набор для подготовки библиотеки кДНК, который включает в себя выбор хвоста polyA для выбора зрелой мРНК. В то время как истощение рРНК приводит к большей глубине считывания, процент покрытия экзона намного ниже, чем покрытие экзона РНК с использованием выбора polyA+39. Наконец, по возможности лучше всего использовать парные концы и мельчие40,41. В приведенном выше протоколе команды сопоставления чтения должны быть изменены при использовании односторонних считываний.
Как упоминалось выше, важно уметь идентифицировать гены, представляющие интерес, а также различать недавние дупликации генов, альтернативное сплайсинг и гаплотипы при секвенировании. В некоторых случаях наличие эталонного генома может помочь, определив, где гены и экзоны расположены относительно друг друга. Следует отметить, что если транскриптом получен из общедоступной базы данных и не является высококачественным, может быть лучше всего генерировать с использованием Trinity42 и объединения библиотек RNA-seq из тканей, представляющих интерес. Аналогичным образом, если эталонный геном не имеет хороших генных моделей, библиотеки RNA-seq могут быть использованы для генерации новых GTF с использованием StringTie43 (см. Дополнительные материалы). Кроме того, в тех случаях, когда гены неполны и есть доступ к геному, гены могут быть вручную отредактированы с использованием гомологических последовательностей, а затем выровнены с геномом с помощью tblastn. Выход BLAST может быть использован для определения фактической последовательности, которая может отличаться от коррекции, выполненной с использованием гомологов. Если совпадений нет, оставьте последовательность как изначально. При проверке выходных данных обратите внимание на координаты генома, чтобы убедиться, что отсутствующий экзон действительно является частью гена.
Хотя мы фокусируемся на программном обеспечении и программах, которые мы использовали, изменения в этом протоколе существуют из-за множества доступных программ, которые могут работать лучше для различных наборов данных. В качестве примера мы показываем команды для сопоставления чтения с транскриптомом с использованием бабочки и RSEM, но у Trinity теперь есть опция для гораздо более быстрых элайнеров, таких как kallisto44 и salmon45. Точно так же мы описываем аннотации с помощью Blast2GO (теперь OmicsBox), но есть и другие инструменты картографа, которые можно найти бесплатно и в Интернете. Некоторые из них, которые мы попробовали, включают: GO FEAT46,eggNOG-mapper47,48и очень быстрый элайнер PANNZER249. Чтобы использовать эти веб-инструменты аннотаций, просто загрузите пептид FASTA и отправьте. Автономные версии PANNZER и eggNOG-mapper также доступны для загрузки в компьютерный кластер. Другая модификация заключается в том, что мы использовали MEGA и R на локальном компьютере и использовали онлайн-инструмент NCBI BLAST для выполнения взаимных BLAST, однако все эти программы могут использоваться в компьютерном кластере путем загрузки необходимых программ и баз данных. Аналогичным образом, элайнеры каллисто и лосось можно использовать на локальном компьютере, если у пользователя достаточно оперативной памяти и хранилища. Тем не менее, файлы FASTQ и FASTA, как правило, очень велики, и мы настоятельно рекомендуем использовать компьютерный кластер для простоты и скорости. Кроме того, хотя мы предоставляем инструкции и ссылки на скачивание программ от их разработчиков, многие из них могут быть установлены из bioconda: https://anaconda.org/bioconda.
Распространенной проблемой, с которой сталкиваются при проведении биоинформатических анализов, является сбой сценариев оболочки. Это может быть связано с самыми разными причинами. Если создается файл ошибки, этот файл ошибки следует проверить перед устранением неполадок. Несколькими распространенными причинами ошибки являются опечатки, отсутствие ключевых параметров и проблемы совместимости между версиями программного обеспечения. В этот протокол мы включаем параметры для данных, но руководства по программному обеспечению могут предоставить более подробные рекомендации по отдельным параметрам. В общем, лучше всего использовать самые последние версии программного обеспечения и обращаться к руководству, соответствующему этой версии.
Усовершенствования этого протокола включают в себя проведение дифференциального анализа выражений в масштабах всего транскриптома и анализа функционального обогащения. Мы рекомендуем edgeR50 для дифференциального экспрессионного анализа пакет, доступный в Bioconductor. Для анализа функционального обогащения мы использовали Blast2GO29 и веб-сайт DAVID51,52. Мы также рекомендуем дополнительно отредактировать филогению, извлекая ее в виде файла newick и используя веб-сайт iTOL53. Кроме того, хотя этот протокол будет исследовать молекулярную эволюцию и паттерны экспрессии генов, дополнительные эксперименты могут быть использованы для проверки местоположения и функций генов или белков. Экспрессия мРНК может быть подтверждена с помощью RT-qPCR или гибридизации in situ. Белки могут быть локализованы с помощью иммуногистохимии. В зависимости от вида, нокаут-эксперименты могут быть использованы для подтверждения функции генов. Этот протокол может быть использован для различных целей, включая, как показано выше, для изучения семейства генов, обычно связанного с фоторецепцией у базального вида7. Другим применением этих методов является выявление изменений в законсервированном пути при различных селективных давлениях. В качестве примера эти методы были использованы для обнаружения вариаций в экспрессии потенциальных каналов транзиторных рецепторов зрения между суточными бабочками и ночными мотыльками34.
Авторам нечего раскрывать.
Мы благодарим Адриану Бриско, Гила Смита, Раби Мурада и Алин Г. Рангел за советы и рекомендации по включению некоторых из этих шагов в наш рабочий процесс. Мы также благодарны Кэтрин Уильямс, Элизабет Реббоа и Наташе Пиччиани за комментарии к рукописи. Эта работа была частично поддержана стипендией Фонда Джорджа Э. Хьюитта для медицинских исследований A.M.M.
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены