Визуализация и анализ химического пространства баз данных натуральных продуктов для разработки лекарств

В этой статье мы предлагаем методологию, которая использует различные молекулярные представления для отображения и анализа химического пространства наборов данных о природных соединениях, уделяя особое внимание приложениям, связанным с открытием лекарств.

Аннотация

Химическое пространство — это многомерное пространство дескрипторов, которое заключает в себе все возможные молекулы, и по крайней мере 1 x 10⁶⁰ органических веществ с молекулярной массой ниже 500 Да считаются потенциально релевантными для открытия лекарств. Натуральные продукты были основным источником новых фармакологических препаратов на рынке в течение последних сорока лет и продолжают оставаться одним из самых продуктивных источников для создания инновационных лекарственных препаратов. Вычислительные инструменты на основе хемоинформатики ускоряют процесс разработки лекарств для натуральных продуктов. Были использованы методы, включающие оценку биологической активности, профилей безопасности, ADME и измерение сходства натурального продукта. В этой статье мы рассмотрим последние разработки в области хемоинформатических инструментов, предназначенных для визуализации, характеристики и расширения химического пространства наборов данных о природных соединениях с использованием различных молекулярных представлений, создания визуальных представлений таких пространств и исследования отношений структура-свойства в химических пространствах. Уделяя особое внимание приложениям для разработки лекарств, мы оцениваем базы данных с открытым исходным кодом BIOFACQUIM и PeruNPDB как доказательство концепции.

Введение

Натуральные продукты (НЧ), которые представляют собой химические соединения, созданные живыми существами, использовались в качестве традиционных методов лечения на протяжении веков. Отдельные НЧ были созданы в качестве лекарств в современную эпоху и успешно используются в качестве соединений свинца при открытии лекарств¹. В категорию биологически активных соединений входят морские, грибковые, бактериальные, растительные и эндогенные вещества, созданные человеком и животными, а также яды и яды, вырабатываемые различными животными². В результате, в течение сорока лет количество лекарств, производимых НЧ, представляло собой значительный источник новых фармакологических^{веществ3}, подчеркивая, что НЧ сыграли решающую роль в разработке новых лекарств, особенно для лечения рака и инфекционных заболеваний, а также других терапевтических состояний, таких как рассеянный склероз и сердечно-сосудистые^{заболевания.}. Кроме того, 64,9% из 185 малых соединений, которые были разрешены для лечения рака в период с 1981 по 2019 год, были немодифицированными НЧ или синтетическими лекарственными средствами с фармакофором^НЧ3.

Хемоинформатика, хорошо зарекомендовавшая себя междисциплинарная дисциплина, основанная на концепции химического пространства, была использована для анализа и визуализации химического пространства физико-химических качеств НП, связанных с лекарственными^{свойствами.} Хемоинформатика показала существенное влияние на разработку и открытие лекарств на основе НЧ⁶. Химическое пространство группы соединений не всегда уникально. Это будет зависеть от набора дескрипторов, используемых для его определения, а это означает, что изучение химического пространства НЧ, как и любого другого набора соединений, сопряжено с особыми проблемами, которые основываются на молекулярном представлении. К этой задаче можно подойти с помощью различных молекулярных дескрипторов и методов визуализации данных. В отличие от этого, наиболее часто используемыми методами являются анализ главных компонент (PCA), каркасные деревья, самоорганизующиеся карты, генеративное топографическое картографирование (GTM) и новый метод визуализации, называемый древовидными картами (TMAP)⁸. Кроме того, сбор, оценка и распространение химической информации о НЧ в базах данных соединений является одним из видов использования хемоинформатики в исследованиях НЧ. В отличие от этого, с внедрением больших данных это особенно актуально⁹.

Здесь базы данных NP с открытым исходным кодом BIOFACQUIM¹⁰ и PeruNPDB¹¹ используются для описания протокола, который ищет визуализацию и характеристику химического пространства наборов данных о природных соединениях с использованием различных молекулярных представлений, создает визуальные представления таких пространств и исследует отношения структура-свойства в химических пространствах, уделяя особое внимание приложениям для разработки лекарств.

протокол

1. Загрузка и установка программного обеспечения

Сделайте каталог этого проекта свежим. Для удобного доступа поместите исполняемые файлы и файлы в эту директорию.
Установите необходимые программные пакеты после их загрузки.
Загрузите последнюю версию программного обеспечения Osiris DataWarrior (OSIRIS), которую можно найти на https://openmolecules.org/datawarrior/
Загрузите последнюю версию аналитической платформы Konstanz Information Miner (KNIME), которую можно найти по адресу https://www.knime.com/
Загрузите последнюю версию программного обеспечения The GraphPad Prism, которую можно найти на https://www.graphpad.com/
ПРИМЕЧАНИЕ: Программное обеспечение Osiris DataWarrior и аналитическая платформа Konstanz Information Miner (KNIME) могут использоваться на персональном компьютере и бесплатны для индивидуального использования, в то время как программное обеспечение GraphPad Prism можно приобрести по адресу (https://www.graphpad.com/).

2. Построение и курирование составной базы данных

ПРИМЕЧАНИЕ: Найдите вещества и источники, которые имеют необходимые данные. Пользователю рекомендуется иметь следующие сведения о каждом соединении в электронной таблице.

Назовите каждое соединение. Добавьте названия всех соединений, описанных в источнике, в первый столбец таблицы.
Назначьте внутренний, стандартизированный код при создании внутренней коллекции или назначьте номер, который однозначно идентифицирует это соединение в используемой базе данных.
Предоставьте входные данные структуры с помощью канонической нотации SMILES, которую можно импортировать в другие инструменты молекулярного редактирования.
1. В идеале сохраните базу данных в .csv формате после того, как эти данные будут собраны в электронной таблице.
2. Используйте программное обеспечение OSIRIS для создания файлов структурных данных (SDF), молекулярных данных (mol) и mol2 набора данных, которые также содержат химическую информацию и совместимы с большинством программных пакетов. Для этого загрузите архив .csv , нажав кнопку «Файл», а затем кнопку «Открыть ».
3. Загрузите набор данных на аналитическую платформу KNIME, чтобы улучшить качество данных и предотвратить неточные результаты. Для этого загрузите файл .sdf или .mol2 , нажав кнопку «Файл», а затем кнопку «Открыть ».
Обеспечивают однородность химических структур.
1. Исследуйте каждую химическую структуру на предмет допустимых типов атомов и проверки валентности. Стандартизируйте структуры, преобразовав их в каноническую таутомерную форму, кекулизируя ароматические структуры, стандартизировав расположение стереосвязей и превратив все неявные водороды в явные с помощью рабочего процесса « Стандартизация молекулярных структур » KNIME.
2. Находите и устраняйте дубликаты после правильной стандартизации молекул с помощью рабочего процесса «Стандартизация молекулярных структур» KNIME. Используйте ключи InChI в качестве линейной нотации для определения различных состояний протонации и таутомеров.
3. Устраните дубликаты.
4. Перечислите таутомеры и стереоизомеры. Этот шаг имеет решающее значение в виртуальных скрининговых исследованиях, особенно при использовании таких методов поиска, как докинг или фармакофорная фильтрация.

3. Молекулярные дескрипторы и анализ разнообразия

Примечание: Молекулярные дескрипторы, такие как физико-химические качества, молекулярные отпечатки пальцев и химические каркасы, являются наиболее распространенными подходами к представлению молекул в хемоинформатических приложениях. Анализ можно провести здесь: http://132.248.103.152:3838/PUMA/. Все описанные ниже шаги подробно описаны на сайте PUMA.

Рассчитайте шесть наиболее распространенных физико-химических качеств фармакологической значимости: молекулярная масса (MW), коэффициент разделения октанол/вода (clogP), топологическая площадь поверхности (TPSA), растворимость в воде (clogS), количество донорных атомов H-связи (HBD) и количество акцепторных атомов H-связи (HBA). Для получения дополнительной информации посетите веб-сайт PUMA.
Вычислите 166-битные ключи MACCS, попарное сходство по Танимото и отпечатки расширенной связности диаметра 4 (ECFP4), а также другие круглые отпечатки, подходящие для виртуального скрининга, моделирования ландшафта деятельности и исследования отношений структура-активность (SAR).
Вычислите центральную статистику тенденций для каждого попарного сравнения. Обеспечьте разнообразие в наборе данных с меньшим средним или медианой, противоречащим евклидову дистанции или любой общей метрике расстояния.
Проверьте, были ли рассчитанные значения зафиксированы в литературе или рассчитаны для других справочных баз данных для сравнения. Для этого обратитесь к таким веб-сайтам, как PubChem или CHEMBL.
Создавайте графики скрипки для визуализации в программном обеспечении GraphPad Prism, отображая максимальные и минимальные значения.

4. Визуализация химического пространства

ПРИМЕЧАНИЕ: Можно сжать большую часть релевантных данных в небольшое число переменных с помощью PCA и других методов уменьшения размерности. Таким образом, становится возможной визуализация химического пространства.

Выберите все шесть дескрипторов, чтобы определить сходство или расстояние. Соответственно создайте матрицу подобия (или расстояния).
Выполнение PCA-анализа матрицы. Выберите два или три основных компонента для построения графика. Учитывайте долю дисперсии, охватываемую каждым основным компонентом.
Создание двухмерных или трехмерных точечных представлений для PCA с помощью узла Plotly KNIME.

5. Согласованные графики с разнесением

ПРИМЕЧАНИЕ: Визуальные представления были разработаны для обобщения нескольких характеристик, которые могут быть использованы для количественной оценки разнообразия. Здесь http://132.248.103.152:3838/CDPlots/ можно провести анализ графиков консенсусного разнесения (CDP)¹² .

Создайте график с количеством соединений в базе данных, чтобы определить размер точки данных. Используйте разнообразие молекулярных отпечатков пальцев для оси x, разнообразие скаффолдов для оси y, разнообразие на основе физико-химических свойств для непрерывной шкалы цвета и относительное количество соединений в наборе данных для размера точки данных.
Сгенерируйте график с несколькими переменными с помощью программного обеспечения GraphPad Prism.

Результаты

Молекулярные свойства и визуализация химического пространства
Все соединения в наборах данных BIOFACQUIM¹⁰, PeruNPDB¹¹ и FDA¹³ имели шесть рассчитанных физико-химических свойств. Затем эти качества были нанесены на графики скрипки, которые позволяют увидеть, как распределены свойства трех исследуемых наборов данных (рис. 1). Профили распределения шести физико-химических параметров, представляющих фармацевтический интерес, а именно молекулярной массы (MW), коэффициента разделения октанол/вода (clogP), топологической площади поверхности (TPSA), растворимости в воде (clogS), числа донорных атомов H-связи (HBD) и количества акцепторных атомов H-связи (HBA), различаются между наборами данных. Тем не менее, результаты TPSA продемонстрировали значительные расхождения при сравнении наборов данных BIOFACQUIM и FDA с PeruNPDB. С помощью PCA была проведена визуализация химического пространства набора данных. Тем не менее, 3D-визуальный анализ PCA показывает, что молекулы в обоих наборах данных NP примерно перекрывают химическое пространство с коллекцией одобренных FDA фармацевтических препаратов. В то время как в некоторых районах преобладают химические вещества из PeruNPDB или BIOFACQUIM (Рисунок 2).

Анализ многообразия
Кроме того, для оценки разнообразия наборов данных была использована CDP, основанная на молекулярных отпечатках, скаффолдах и физико-химических атрибутах. Основанное на свойствах разнообразие баз данных PeruNPDB, BIOFAQUIM и FDA было рассчитано с использованием евклидова расстояния масштабированных свойств. Кроме того, для оценки разнообразия наборов данных была использована CDP, основанная на молекулярных отпечатках, скаффолдах и физико-химических атрибутах. Основанное на свойствах разнообразие баз данных PeruNPDB, BIOFAQUIM и FDA было рассчитано с использованием евклидова расстояния масштабированных свойств. Значения на цветном графике CD представлены точками данных на непрерывной цветовой шкале. Более яркие оттенки означают большее разнообразие, в то время как более темные цвета означают меньшее разнообразие. И последнее, но не менее важное: для отображения относительного количества соединений в каждой базе данных используются различные размеры точек, при этом меньшие точки данных представляют базы данных с меньшим количеством молекул. Поскольку он был обнаружен в регионе, где должно быть обнаружено наибольшее разнообразие скаффолдов и отпечатков пальцев, результаты показали, что соединения в PeruNPDB имеют наибольшее глобальное разнообразие (рис. 3).

figure-results-2865
Рисунок 1: Графики Скрипки для физико-химических свойств. Графики Скрипки для физико-химических свойств наборов данных BIOFACQUIM, PeruNPDB и FDA. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.

figure-results-3386
Рисунок 2: Визуальное представление химического пространства. Визуальное представление наборов данных BIOFACQUIM, PeruNPDB и FDA на основе основных компонентов шести свойств, имеющих фармацевтическое значение. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.

figure-results-3970
Рисунок 3: График консенсусного разнообразия. График консенсусного разнообразия, сравнивающий глобальное разнообразие наборов данных BIOFACQUIM, PeruNPDB и FDA. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.

Обсуждение

Благодаря своим многочисленным потенциальным применениям, таким как классификация соединений, выбор соединений, изучение связей структура-активность и навигация по взаимодействию структуры и свойства, концепция химического пространства в настоящее время широко используется^{в процессе открытия} и разработки лекарств. Кроме того, создание баз данных НЧ является фундаментальной процедурой для выполнения различных вычислительных исследований, включая проектирование химических библиотек, характеристику и сравнение химического пространства, изучение РСА и виртуальный скрининг, среди прочего, в результате увеличения объема химической информации. В отличие от этого, обучение алгоритмам искусственного интеллекта (ИИ) является еще одним важным приложением. ИИ относится к группе вычислительных методов, которые позволяют машинам имитировать когнитивные процессы человека, включая решение проблем и обучение^{на основе опыта}^.

Несмотря на то, что базы данных химических соединений, в том числе базы данных НЧ, являются важными инструментами в разработке лекарств, также возможно обнаружение потенциальных молекул поражения с помощью^{различных методов виртуального} скрининга. Кроме того, в базах данных NP было обнаружено несколько кандидатов на лекарства, которые обладают потенциалом для лечения заболеваний, включая коронавирусную болезнь¹⁸, болезнь Альцгеймера¹⁹ и лейшманиоз²⁰, среди прочих. Однако из-за существующих ограничений в обработке «больших данных» химическое пространство всех потенциальных молекул в конкретном биологическом или экологическом образце может быть чрезвычайно большим и в основном неисследованным^. Несмотря на то, что не существует уникальных или универсальных методов для представления химического пространства, одним из широко используемых способов является создание матриц подобия, включающих все попарные^{сравнения.} Большая часть релевантной информации может быть сведена к небольшому числу переменных (хотя и с потерей информации) с использованием PCA и других методов уменьшения размерности, что позволяет визуализировать химическое пространство^.

Разнообразие химической библиотеки можно оценить различными способами, во многом в зависимости от изучаемых данных и, что наиболее важно, от цели исследования. Молекулярная репрезентация является важнейшим компонентом анализа разнообразия в дополнение к мере разнообразия²⁴. Несмотря на то, что химические каркасы и молекулярные дескрипторы являются двумя подходами, наиболее часто используемыми для представления молекул в хемоинформатическом анализе, некоторые из них имеют недостаток, заключающийся в том, что они более сложны для^{понимания и не} обязательно идентифицируют коллекции; Например, для различных соединений характерно иметь чрезвычайно сопоставимые профили свойств. Таким образом, рассмотрение различных структурных представлений дает более полную картину разнообразия составных библиотек. В этом заключается основа концепции химической мультивселенной, которая может быть определена как группа или набор химических пространств для одного и того же набора данных, каждое из которых определяется набором дескрипторов²⁶.

Поскольку CDP используют несколько представлений, которые могут быть разделены на три или два измерения для анализа глобального разнообразия наборов данных о соединениях с использованием различных метрик, они помогают сравнивать и категоризировать химические библиотеки^.

Раскрытие информации

Авторы заявляют, что у них нет никакого конфликта интересов.

Благодарности

HLBC и MACH благодарят за финансирование Католический университет Санта-Мария (гранты 27499-R-2020, 27574-R-2020, 7309-CU-2020 и 28048-R-2021). JLMF благодарит за финансирование DGAPA, UNAM, Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT), grant No. IN201321.

Материалы

Name	Company	Catalog Number	Comments
GraphPad Prism	GraphPad Prism	https://www.graphpad.com/
KNIME platform	KNIME	https://www.knime.com
Osiris DataWarrior (OSIRIS) software	openmolecules.org	https://openmolecules.org/datawarrior/
PUMA	PUMA: Platform for Unified Molecular Analysis	http://132.248.103.152:3838/PUMA/

Ссылки

Boufridi, A., Quinn, R. J. Harnessing the properties of natural products. Annu Rev Pharmacol Toxicol. 58, 451-470 (2018).
Gómez-García, A., et al. Navigating the chemical space and chemical multiverse of a unified Latin American natural product database: LANaPDB. ChemRxiv. , (2023).
Newman, D. J., Cragg, G. M. Natural products as sources of new drugs over the nearly four decades from 01/1981 to 09/2019. J Nat Prod. 83 (3), 770-803 (2020).
Atanasov, A. G., Zotchev, S. B., Dirsch, V. M., Supuran, C. T. Natural products in drug discovery: advances and opportunities. Nat Rev Drug Discov. 20 (3), 200-216 (2021).
Medina-Franco, J. L., Saldívar-González, F. I. Cheminformatics to characterize pharmacologically active natural products. Biomolecules. 10 (11), 1566 (2020).
Chen, Y., Garcia De Lomana, M., Friedrich, N. O., Kirchmair, J. Characterization of the Chemical Space of Known and Readily Obtainable Natural Products. J Chem Inf Model. 58 (8), 1518-1532 (2018).
Gaytán-Hernández, D., Chávez-Hernández, A. L., López-López, E., Miranda-Salas, J., Saldívar-González, F. I., Medina-Franco, J. L. Art driven by visual representations of chemical space. ChemRxiv. , (2023).
Zabolotna, Y., Ertl, P., Horvath, D., Bonachera, F., Marcou, G., Varnek, A. NP Navigator: A new look at the natural product chemical space. Mol Inform. 40 (9), e2100068 (2021).
Martinez-Mayorga, K., Madariaga-Mazon, A., Medina-Franco, J. L., Maggiora, G. The impact of chemoinformatics on drug discovery in the pharmaceutical industry. Expert Opin Drug Discov. 15 (3), 293-306 (2020).
Pilón-Jiménez, B., Saldívar-González, F., Díaz-Eufracio, B., Medina-Franco, J. BIOFACQUIM: A Mexican compound database of natural products. Biomolecules. 9 (1), 31 (2019).
Barazorda-Ccahuana, H. L., et al. PeruNPDB: the Peruvian natural products database for in silico drug screening. Sci Rep. 13 (1), 7577 (2023).
González-Medina, M., Prieto-Martínez, F. D., Owen, J. R., Medina-Franco, J. L. Consensus diversity plots: a global diversity analysis of chemical libraries. J Cheminform. 8, 63 (2016).
Irwin, J. J., et al. ZINC20-A free ultralarge-scale chemical database for ligand discovery. J Chem Inf Model. 60 (12), 6065-6073 (2020).
Naveja, J. J., Medina-Franco, J. L. Finding constellations in chemical space through core analysis. Front Chem. 7, 510 (2019).
Cavasotto, C. N., Di Filippo, J. I. Artificial intelligence in the early stages of drug discovery. Arch Biochem Biophys. 698, 108730 (2021).
Rosén, J., Gottfries, J., Muresan, S., Backlund, A., Oprea, T. I. Novel chemical space exploration via natural products. J Med Chem. 52 (7), 1953-1962 (2009).
Sliwoski, G., Kothiwale, S., Meiler, J., Lowe Jr, E. W. Computational methods in drug discovery. Pharmacol Rev. 66 (1), 334-395 (2014).
Goyzueta-Mamani, L. D., Barazorda-Ccahuana, H. L., Mena-Ulecia, K., Chávez-Fumagalli, M. A. Antiviral activity of metabolites from Peruvian plants against SARS-CoV-2: An in silico approach. Molecules. 26 (13), 3882 (2021).
Goyzueta-Mamani, L. D., et al. In silico analysis of metabolites from Peruvian native plants as potential therapeutics against Alzheimer's disease. Molecules. 27 (3), 918 (2022).
Barazorda-Ccahuana, H. L., et al. Computer-aided drug design approaches applied to screen natural product's structural analogs targeting arginase in Leishmania spp. F1000Research. 12, 93 (2023).
McGrady, M. Y., Colby, S. M., Nuñez, J. R., Renslow, R. S., Metz, T. O. AI for chemical space gap filling and novel compound generation. arXiv. , (2022).
Medina-Franco, J., Martinez-Mayorga, K., Giulianotti, M., Houghten, R., Pinilla, C. Visualization of the chemical space in drug discovery. Curr Comput Aided-Drug Des. 4 (4), 322-333 (2008).
Osolodkin, D. I., Radchenko, E. V., Orlov, A. A., Voronkov, A. E., Palyulin, V. A., Zefirov, N. S. Progress in visual representations of chemical space. Expert Opin Drug Discov. 10 (9), 959-973 (2015).
Sheridan, R. P., Kearsley, S. K. Why do we need so many chemical similarity search methods. Drug Discov Today. 7 (17), 903-911 (2002).
Singh, N., Guha, R., Giulianotti, M. A., Pinilla, C., Houghten, R. A., Medina-Franco, J. L. Chemoinformatic analysis of combinatorial libraries, drugs, natural products, and molecular libraries Small Molecule Repository. J Chem Inf Model. 49 (4), 1010-1024 (2009).
Medina-Franco, J. L., Chávez-Hernández, A. L., López-López, E., Saldívar-González, F. I. Chemical multiverse: An expanded view of chemical space. Mol Inform. 41 (11), e2200116 (2022).

Перепечатки и разрешения

Запросить разрешение на использование текста или рисунков этого JoVE статьи

Запросить разрешение

Смотреть дополнительные статьи

ADME BIOFACQUIM PeruNPDB

This article has been published

Video Coming Soon

Keep me updated:

Конфиденциальность

Условия эксплуатации

Политика

СВЯЖИТЕСЬ С НАМИ

РЕКОМЕНДОВАТЬ БИБЛИОТЕКЕ

НОВОСТИ JoVE

Исследования

Образование

АВТОРЫ

Библиотекарь

О JoVE