Method Article
В этой статье мы предлагаем методологию, которая использует различные молекулярные представления для отображения и анализа химического пространства наборов данных о природных соединениях, уделяя особое внимание приложениям, связанным с открытием лекарств.
Химическое пространство — это многомерное пространство дескрипторов, которое заключает в себе все возможные молекулы, и по крайней мере 1 x 1060 органических веществ с молекулярной массой ниже 500 Да считаются потенциально релевантными для открытия лекарств. Натуральные продукты были основным источником новых фармакологических препаратов на рынке в течение последних сорока лет и продолжают оставаться одним из самых продуктивных источников для создания инновационных лекарственных препаратов. Вычислительные инструменты на основе хемоинформатики ускоряют процесс разработки лекарств для натуральных продуктов. Были использованы методы, включающие оценку биологической активности, профилей безопасности, ADME и измерение сходства натурального продукта. В этой статье мы рассмотрим последние разработки в области хемоинформатических инструментов, предназначенных для визуализации, характеристики и расширения химического пространства наборов данных о природных соединениях с использованием различных молекулярных представлений, создания визуальных представлений таких пространств и исследования отношений структура-свойства в химических пространствах. Уделяя особое внимание приложениям для разработки лекарств, мы оцениваем базы данных с открытым исходным кодом BIOFACQUIM и PeruNPDB как доказательство концепции.
Натуральные продукты (НЧ), которые представляют собой химические соединения, созданные живыми существами, использовались в качестве традиционных методов лечения на протяжении веков. Отдельные НЧ были созданы в качестве лекарств в современную эпоху и успешно используются в качестве соединений свинца при открытии лекарств1. В категорию биологически активных соединений входят морские, грибковые, бактериальные, растительные и эндогенные вещества, созданные человеком и животными, а также яды и яды, вырабатываемые различными животными2. В результате, в течение сорока лет количество лекарств, производимых НЧ, представляло собой значительный источник новых фармакологическихвеществ3, подчеркивая, что НЧ сыграли решающую роль в разработке новых лекарств, особенно для лечения рака и инфекционных заболеваний, а также других терапевтических состояний, таких как рассеянный склероз и сердечно-сосудистыезаболевания.. Кроме того, 64,9% из 185 малых соединений, которые были разрешены для лечения рака в период с 1981 по 2019 год, были немодифицированными НЧ или синтетическими лекарственными средствами с фармакофоромНЧ3.
Хемоинформатика, хорошо зарекомендовавшая себя междисциплинарная дисциплина, основанная на концепции химического пространства, была использована для анализа и визуализации химического пространства физико-химических качеств НП, связанных с лекарственнымисвойствами. Хемоинформатика показала существенное влияние на разработку и открытие лекарств на основе НЧ6. Химическое пространство группы соединений не всегда уникально. Это будет зависеть от набора дескрипторов, используемых для его определения, а это означает, что изучение химического пространства НЧ, как и любого другого набора соединений, сопряжено с особыми проблемами, которые основываются на молекулярном представлении. К этой задаче можно подойти с помощью различных молекулярных дескрипторов и методов визуализации данных. В отличие от этого, наиболее часто используемыми методами являются анализ главных компонент (PCA), каркасные деревья, самоорганизующиеся карты, генеративное топографическое картографирование (GTM) и новый метод визуализации, называемый древовидными картами (TMAP)8. Кроме того, сбор, оценка и распространение химической информации о НЧ в базах данных соединений является одним из видов использования хемоинформатики в исследованиях НЧ. В отличие от этого, с внедрением больших данных это особенно актуально9.
Здесь базы данных NP с открытым исходным кодом BIOFACQUIM10 и PeruNPDB11 используются для описания протокола, который ищет визуализацию и характеристику химического пространства наборов данных о природных соединениях с использованием различных молекулярных представлений, создает визуальные представления таких пространств и исследует отношения структура-свойства в химических пространствах, уделяя особое внимание приложениям для разработки лекарств.
1. Загрузка и установка программного обеспечения
2. Построение и курирование составной базы данных
ПРИМЕЧАНИЕ: Найдите вещества и источники, которые имеют необходимые данные. Пользователю рекомендуется иметь следующие сведения о каждом соединении в электронной таблице.
3. Молекулярные дескрипторы и анализ разнообразия
Примечание: Молекулярные дескрипторы, такие как физико-химические качества, молекулярные отпечатки пальцев и химические каркасы, являются наиболее распространенными подходами к представлению молекул в хемоинформатических приложениях. Анализ можно провести здесь: http://132.248.103.152:3838/PUMA/. Все описанные ниже шаги подробно описаны на сайте PUMA.
4. Визуализация химического пространства
ПРИМЕЧАНИЕ: Можно сжать большую часть релевантных данных в небольшое число переменных с помощью PCA и других методов уменьшения размерности. Таким образом, становится возможной визуализация химического пространства.
5. Согласованные графики с разнесением
ПРИМЕЧАНИЕ: Визуальные представления были разработаны для обобщения нескольких характеристик, которые могут быть использованы для количественной оценки разнообразия. Здесь http://132.248.103.152:3838/CDPlots/ можно провести анализ графиков консенсусного разнесения (CDP)12 .
Молекулярные свойства и визуализация химического пространства
Все соединения в наборах данных BIOFACQUIM10, PeruNPDB11 и FDA13 имели шесть рассчитанных физико-химических свойств. Затем эти качества были нанесены на графики скрипки, которые позволяют увидеть, как распределены свойства трех исследуемых наборов данных (рис. 1). Профили распределения шести физико-химических параметров, представляющих фармацевтический интерес, а именно молекулярной массы (MW), коэффициента разделения октанол/вода (clogP), топологической площади поверхности (TPSA), растворимости в воде (clogS), числа донорных атомов H-связи (HBD) и количества акцепторных атомов H-связи (HBA), различаются между наборами данных. Тем не менее, результаты TPSA продемонстрировали значительные расхождения при сравнении наборов данных BIOFACQUIM и FDA с PeruNPDB. С помощью PCA была проведена визуализация химического пространства набора данных. Тем не менее, 3D-визуальный анализ PCA показывает, что молекулы в обоих наборах данных NP примерно перекрывают химическое пространство с коллекцией одобренных FDA фармацевтических препаратов. В то время как в некоторых районах преобладают химические вещества из PeruNPDB или BIOFACQUIM (Рисунок 2).
Анализ многообразия
Кроме того, для оценки разнообразия наборов данных была использована CDP, основанная на молекулярных отпечатках, скаффолдах и физико-химических атрибутах. Основанное на свойствах разнообразие баз данных PeruNPDB, BIOFAQUIM и FDA было рассчитано с использованием евклидова расстояния масштабированных свойств. Кроме того, для оценки разнообразия наборов данных была использована CDP, основанная на молекулярных отпечатках, скаффолдах и физико-химических атрибутах. Основанное на свойствах разнообразие баз данных PeruNPDB, BIOFAQUIM и FDA было рассчитано с использованием евклидова расстояния масштабированных свойств. Значения на цветном графике CD представлены точками данных на непрерывной цветовой шкале. Более яркие оттенки означают большее разнообразие, в то время как более темные цвета означают меньшее разнообразие. И последнее, но не менее важное: для отображения относительного количества соединений в каждой базе данных используются различные размеры точек, при этом меньшие точки данных представляют базы данных с меньшим количеством молекул. Поскольку он был обнаружен в регионе, где должно быть обнаружено наибольшее разнообразие скаффолдов и отпечатков пальцев, результаты показали, что соединения в PeruNPDB имеют наибольшее глобальное разнообразие (рис. 3).
Рисунок 1: Графики Скрипки для физико-химических свойств. Графики Скрипки для физико-химических свойств наборов данных BIOFACQUIM, PeruNPDB и FDA. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 2: Визуальное представление химического пространства. Визуальное представление наборов данных BIOFACQUIM, PeruNPDB и FDA на основе основных компонентов шести свойств, имеющих фармацевтическое значение. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Рисунок 3: График консенсусного разнообразия. График консенсусного разнообразия, сравнивающий глобальное разнообразие наборов данных BIOFACQUIM, PeruNPDB и FDA. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этой цифры.
Благодаря своим многочисленным потенциальным применениям, таким как классификация соединений, выбор соединений, изучение связей структура-активность и навигация по взаимодействию структуры и свойства, концепция химического пространства в настоящее время широко используетсяв процессе открытия и разработки лекарств. Кроме того, создание баз данных НЧ является фундаментальной процедурой для выполнения различных вычислительных исследований, включая проектирование химических библиотек, характеристику и сравнение химического пространства, изучение РСА и виртуальный скрининг, среди прочего, в результате увеличения объема химической информации. В отличие от этого, обучение алгоритмам искусственного интеллекта (ИИ) является еще одним важным приложением. ИИ относится к группе вычислительных методов, которые позволяют машинам имитировать когнитивные процессы человека, включая решение проблем и обучениена основе опыта.
Несмотря на то, что базы данных химических соединений, в том числе базы данных НЧ, являются важными инструментами в разработке лекарств, также возможно обнаружение потенциальных молекул поражения с помощьюразличных методов виртуального скрининга. Кроме того, в базах данных NP было обнаружено несколько кандидатов на лекарства, которые обладают потенциалом для лечения заболеваний, включая коронавирусную болезнь18, болезнь Альцгеймера19 и лейшманиоз20, среди прочих. Однако из-за существующих ограничений в обработке «больших данных» химическое пространство всех потенциальных молекул в конкретном биологическом или экологическом образце может быть чрезвычайно большим и в основном неисследованным. Несмотря на то, что не существует уникальных или универсальных методов для представления химического пространства, одним из широко используемых способов является создание матриц подобия, включающих все попарныесравнения. Большая часть релевантной информации может быть сведена к небольшому числу переменных (хотя и с потерей информации) с использованием PCA и других методов уменьшения размерности, что позволяет визуализировать химическое пространство.
Разнообразие химической библиотеки можно оценить различными способами, во многом в зависимости от изучаемых данных и, что наиболее важно, от цели исследования. Молекулярная репрезентация является важнейшим компонентом анализа разнообразия в дополнение к мере разнообразия24. Несмотря на то, что химические каркасы и молекулярные дескрипторы являются двумя подходами, наиболее часто используемыми для представления молекул в хемоинформатическом анализе, некоторые из них имеют недостаток, заключающийся в том, что они более сложны дляпонимания и не обязательно идентифицируют коллекции; Например, для различных соединений характерно иметь чрезвычайно сопоставимые профили свойств. Таким образом, рассмотрение различных структурных представлений дает более полную картину разнообразия составных библиотек. В этом заключается основа концепции химической мультивселенной, которая может быть определена как группа или набор химических пространств для одного и того же набора данных, каждое из которых определяется набором дескрипторов26.
Поскольку CDP используют несколько представлений, которые могут быть разделены на три или два измерения для анализа глобального разнообразия наборов данных о соединениях с использованием различных метрик, они помогают сравнивать и категоризировать химические библиотеки.
Авторы заявляют, что у них нет никакого конфликта интересов.
HLBC и MACH благодарят за финансирование Католический университет Санта-Мария (гранты 27499-R-2020, 27574-R-2020, 7309-CU-2020 и 28048-R-2021). JLMF благодарит за финансирование DGAPA, UNAM, Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT), grant No. IN201321.
Name | Company | Catalog Number | Comments |
GraphPad Prism | GraphPad Prism | https://www.graphpad.com/ | |
KNIME platform | KNIME | https://www.knime.com | |
Osiris DataWarrior (OSIRIS) software | openmolecules.org | https://openmolecules.org/datawarrior/ | |
PUMA | PUMA: Platform for Unified Molecular Analysis | http://132.248.103.152:3838/PUMA/ |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены