Наши исследования были сосредоточены на обнаружении и количественном определении микробных белков и понимании их роли в клинических заболеваниях. Эта область исследований называется клинической метапротеомикой. В этом исследовании мы разработали рабочий процесс биоинформатики, который позволит исследователям понять, как бактериальная активность может влиять на прогрессирование заболевания.
Метапротеомный анализ клинических образцов сопряжен с многочисленными проблемами, включая обработку очень больших баз данных белковых последовательностей для чувствительной и точной идентификации микробных пептидов и белков по данным масс-спектрометрии, в дополнение к выполнению таксономических и функциональных аннотаций количественных пептидов и белков для обеспечения биологической интерпретации результатов. Этот рабочий процесс дает множество преимуществ, в том числе сокращение базы данных с помощью нашего рабочего процесса по сокращению базы данных, возможность поиска микробных пептидов с использованием нескольких алгоритмов поиска, возможность проверки микробных пептидов, обнаруженных в данных масс-спектрометрии, возможность количественной оценки микробных белков вместе с белками-хозяевами, а также биологическую интерпретацию данных с помощью статистического и визуального анализа. Мы использовали рабочий процесс клинической метапротеомики для идентификации панели микробных пептидов в исследованиях прогрессирования заболевания муковисцидоза с целью изучения статуса коинфекции во время волн пандемии COVID-19.
Эти исследования были опубликованы в рецензируемых академических журналах. В настоящее время мы используем этот рабочий процесс для продолжающегося исследования по разработке прогностической целевой пептидной панели для рака яичников. Команда Galaxy P занимается исследованиями в области мультиомики, и мы разрабатываем несколько передовых рабочих процессов для протеогеномики и метапротеомики.
В настоящее время мы также работаем над разработкой рабочих процессов для иммунопептидомики, которая позволит исследователям обнаруживать и характеризовать пептиды, представленные иммунной системе, некоторые из которых во время прогрессирования рака называются неоантигенами, а также при других заболеваниях, где они также могут быть микробными пептидами. Для начала составьте список видов, которые связаны с интересующей болезнью или состоянием. Используйте файл списка видов под названием Species.
tabular" в качестве входных данных для UniProt. Загрузите протеом в формате FASTA для создания базы данных белковых последовательностей. Запустите загрузчик баз данных белков для создания двух дополнительных баз данных последовательностей белков: базы данных Swiss-Prot для человека, содержащей только проверенные записи, и базы данных загрязняющих белков, содержащей общий репозиторий придаточных белков, или cRAP.
Используйте три базы данных белков в качестве входных данных для файлов слияния FASTA и фильтруйте уникальные последовательности, чтобы исключить дубликаты. Используя в качестве входных данных большую базу данных и набор данных масс-спектрометрии, запустите MetaNovo для создания сокращенной базы данных белковых последовательностей, затем выполните FASTA merge files и отфильтруйте уникальные последовательности по сгенерированной базе данных MetaNovo, человеческим базам данных Swiss-Prot и cRAP для создания сокращенной целевой базы данных, содержащей последовательности микробных, человеческих и загрязняющих белков для обнаружения пептидов. Выполните Search GUI", чтобы создать архивный файл, содержащий пептидные спектральные совпадения, или PSM.
Используйте архивный файл Search GUI в качестве входных данных для Peptide-Shaker для создания отчетов о PSM, пептидах и белках. Запустите MaxQuant, чтобы получить файлы белковых групп и пептидов. Используя инструменты для работы с текстом, организуйте полученные выходные данные из Search GUI, Peptide-Shaker и MaxQuant.
Объедините два списка пептидов в один набор данных, помеченный SGPS-MQ-Peptides.tabular. Сгруппируйте список конкатенированных пептидов для исключения дубликатов пептидных последовательностей и получения окончательного списка уникальных микробных пептидов. Для верификации PepQuery2 введите список различных микробных пептидов, спектральные наборы данных MS, референсную базу данных UniProt человека с изоформами и базу данных последовательностей загрязняющих белков.
Запустите Cut для пептидных отчетов из Search GUI, Peptide-Shaker и MaxQuant, чтобы извлечь пептидные последовательности и связанные с ними белковые записи. Объедините пептидные последовательности и записи белков из обеих программ, чтобы создать новый объединенный набор данных пептидных белков, затем запустите «Запрос в таблице» на объединенном наборе пептидных белков и проверенных пептидах, чтобы присвоить каждому проверенному пептиду связанную с ним запись белка. Group для сохранения уникальных верифицированных пептидов и связанных с ними идентификаторов UniProt.
Затем выполните Query Tabular, чтобы извлечь идентификаторы UniProt, создав список с меткой Uniprot-ID из verified Peptides.tabular. Загрузите идентификаторы UniProt в UniProt, чтобы получить связанные с ними последовательности белков и сохранить их в новом файле UniProt FASTA. Запустите файлы слияния FASTA и отфильтруйте уникальные последовательности на только что созданном UniProt FASTA, человеческой базе данных UniProt с изоформами и базе данных загрязняющих веществ cRAP, чтобы создать проверенную базу данных для количественного определения пептидов.
Используйте проверенную базу данных последовательностей белков и набор данных MS в качестве входных данных для MaxQuant. В файле пептидов MaxQuant выберите только микробные пептиды и запустите команду Cut, чтобы извлечь из файла выбора только последовательности микробных пептидов. Сгруппируйте файл Cut, чтобы составить список количественных микробных пептидов.
Используйте файл list-of-quantified-microbial-peptides в качестве входных данных для Unipept для выполнения таксономических и функциональных аннотаций. Извлеките выходные данные Unipept, в частности, дерево таксономии микроорганизмов и дерево белков комиссии микробных ферментов. Чтобы просмотреть таксономию микроорганизмов и белковые деревья EC, выберите набор данных и откройте опции.
Нажмите «Визуализировать», а затем выберите Unipept Taxonomy Viewer. Чтобы получить таксономические и функциональные аннотации в формате таблицы, щелкните значок глаза табличного набора данных с именем Unipept_peptinfo. Прокрутите, чтобы просмотреть каждый пептид в отдельной строке и соответствующих столбцах информации.
Перед проведением статистического анализа с помощью MSstatsTMT запустите Select"на файле белковых групп MaxQuant, чтобы создать отдельные наборы данных для микробных и человеческих белков. Эти белки содержат таксономические метки, которые указывают на их источник. Исключите любые загрязняющие белки, помеченные меткой con_.
Сохраняйте только микробные белки с такими метками, как _9laco" и человеческие белки с меткой _human" в Microbial_Proteins"табличной и Human_Proteins"табличной соответственно. Наконец, с помощью MSstatsTMT выполните статистический анализ с помощью файла доказательств MaxQuant и выбранных микробных или человеческих белков. Нажмите на значок глаза, чтобы просмотреть полученные графики.
В общей сложности 2 595 745 белковых последовательностей были скомпилированы в всеобъемлющую базу данных, которая затем была сокращена до более целенаправленной базы данных, содержащей 21 289 белковых последовательностей для эффективной пептидной идентификации. С помощью Search GUI, Peptide-Shaker и MaxQuant было идентифицировано 196 различных микробных пептидов. PepQuery2 подтвердил 134 микробных пептида, связанных с 73 белковыми последовательностями, сформировав верифицированную базу данных для количественной оценки.
MaxQuant предоставил файл пептидов, содержащий 3 203 пептида с 155 количественными микробными пептидами. Анализ Unipept показал, что лактобактерии являются наиболее распространенным родом, а трансферазы класса 2 — наиболее распространенной категорией ферментов среди 155 количественных микробных пептидов. MSstatsTMT» позволил получить вулкан и сравнительные графики, иллюстрирующие дифференциально экспрессируемые белки, показывающие, что три белка лактобактерий были подавлены в случаях рака яичников по сравнению с доброкачественными случаями.