Method Article
Aqui, fornecemos uma metodologia que usa diferentes representações moleculares para exibir e analisar o espaço químico de conjuntos de dados de compostos naturais, com foco em aplicações relacionadas à descoberta de medicamentos.
O espaço químico é um espaço descritor multidimensional que engloba todas as moléculas possíveis, e pelo menos 1 x 1060 substâncias orgânicas com peso molecular abaixo de 500 Da são consideradas potencialmente relevantes para a descoberta de medicamentos. Os produtos naturais têm sido a principal fonte das novas entidades farmacológicas comercializadas durante os últimos quarenta anos e continuam a ser uma das fontes mais produtivas para a criação de medicamentos inovadores. As ferramentas computacionais baseadas em quimioinformática aceleram o processo de desenvolvimento de medicamentos para produtos naturais. Métodos que incluem estimativa de bioatividades, perfis de segurança, ADME e medição de semelhança de produtos naturais têm sido usados. Aqui, examinamos os desenvolvimentos recentes em ferramentas quimioinformáticas projetadas para visualizar, caracterizar e expandir o espaço químico de conjuntos de dados de compostos naturais usando várias representações moleculares, criar representações visuais de tais espaços e investigar as relações estrutura-propriedade dentro de espaços químicos. Com ênfase em aplicações de descoberta de medicamentos, avaliamos as bases de dados de código aberto BIOFACQUIM e PeruNPDB como prova de conceito.
Os produtos naturais (NPs), que são compostos químicos criados por seres vivos, têm sido utilizados como tratamentos tradicionais há séculos. NPs individuais foram criados como medicamentos na era moderna e explorados com sucesso como compostos principais na descoberta de medicamentos1. Substâncias marinhas, fúngicas, bacterianas, vegetais e endógenas criadas por humanos e animais estão incluídas na categoria de compostos bioativos, assim como venenos e venenos produzidos por vários animais2. Como resultado, por quarenta anos, o número de medicamentos produzidos pelos NPs representou uma fonte significativa de novas substâncias farmacológicas3, enfatizando que os NPs têm sido cruciais no desenvolvimento de novos medicamentos, particularmente para o tratamento de câncer e doenças infecciosas, bem como para outras condições terapêuticas como esclerose múltipla e doenças cardiovasculares4. Além disso, 64,9% dos 185 pequenos compostos autorizados para tratar o câncer entre 1981 e 2019 eram NPs não modificados ou medicamentos sintéticos com farmacoforo NP3.
A quimioinformática, uma interdisciplinaridade bem estabelecida que se baseia no conceito de espaço químico, tem sido usada para analisar e visualizar o espaço químico das qualidades físico-químicas das NPs ligadas a características semelhantes a drogas5. A quimioinformática mostrou um impacto substancial no design e descoberta de medicamentos com base em NPs6. O espaço químico de um grupo de compostos nem sempre é único. Dependerá da coleção de descritores usados para defini-lo, o que significa que estudar o espaço químico de NPs como qualquer outro conjunto de compostos apresenta desafios particulares que repousam na representação molecular7. Esse esforço pode ser abordado usando uma variedade de descritores moleculares e técnicas de visualização de dados. Em contraste, as técnicas mais utilizadas são análise de componentes principais (PCA), árvores de andaimes, mapas auto-organizáveis, mapeamento topográfico generativo (GTM) e uma nova técnica de visualização chamada mapas de árvore (TMAPs)8. Além disso, a coleta, avaliação e disseminação de informações químicas de NP em bancos de dados de compostos é um dos usos da quimioinformática na pesquisa de NP. Em contraste, com a introdução de big data, isso é especialmente pertinente9.
Aqui, os bancos de dados NP de código aberto BIOFACQUIM10 e PeruNPDB11 são usados para descrever o protocolo que busca a visualização e caracterização do espaço químico de conjuntos de dados de compostos naturais usando várias representações moleculares, cria representações visuais de tais espaços e investiga as relações estrutura-propriedade dentro de espaços químicos, com ênfase em aplicações de descoberta de medicamentos.
1. Download e instalação de software
2. Construção e curadoria de um banco de dados composto
NOTA: Encontre substâncias e fontes que tenham os dados necessários. O usuário é aconselhado a ter os seguintes detalhes para cada composto em uma planilha.
3. Descritores moleculares e análise da diversidade
NOTA: Descritores moleculares, como qualidades físico-químicas, impressões digitais moleculares e andaimes químicos, são as abordagens mais comuns para representar moléculas em aplicações quimioinformáticas. A análise pode ser realizada aqui: http://132.248.103.152:3838/PUMA/. Todas as etapas descritas abaixo são detalhadas no site da PUMA.
4. Visualização do espaço químico
NOTA: É possível condensar a maioria dos dados pertinentes em um pequeno número de variáveis usando PCA e outras técnicas de redução de dimensionalidade. As visualizações do espaço químico são, portanto, possíveis.
5. Gráficos de diversidade de consenso
NOTA: As representações visuais foram desenvolvidas para resumir algumas características que podem ser usadas para quantificar a variedade. A análise dos gráficos de diversidade de consenso (CDPs)12 pode ser realizada aqui http://132.248.103.152:3838/CDPlots/.
Propriedades moleculares e visualização do espaço químico
Todos os compostos nos conjuntos de dados BIOFACQUIM10, PeruNPDB11 e FDA13 tiveram seis propriedades físico-químicas calculadas para eles. Essas qualidades foram então plotadas em gráficos de violino, o que permite ver como as propriedades dos três conjuntos de dados estudados são distribuídas (Figura 1). Os perfis de distribuição dos seis parâmetros físico-químicos de interesse farmacêutico, a saber, peso molecular (MW), coeficiente de partição octanol/água (clogP), área de superfície topológica (TPSA), solubilidade aquosa (clogS), número de átomos doadores de ligação H (HBD) e número de átomos aceitadores de ligação H (HBA), diferem entre os conjuntos de dados. No entanto, os resultados do TPSA demonstraram variações significativas ao comparar os conjuntos de dados BIOFACQUIM e FDA com o PeruNPDB. Usando PCA, a visualização do espaço químico do conjunto de dados foi realizada. No entanto, a análise de PCA visual 3D revela que as moléculas em ambos os conjuntos de dados de NPs se sobrepõem aproximadamente ao espaço químico com a coleção de produtos farmacêuticos aprovados pela FDA. Enquanto em algumas áreas, predominam os produtos químicos do PeruNPDB ou BIOFACQUIM (Figura 2).
Análise de diversidade
Além disso, um CDP baseado em impressões digitais moleculares, andaimes e atributos físico-químicos foi utilizado para avaliar a diversidade dos conjuntos de dados. A diversidade baseada em propriedades dos bancos de dados do PeruNPDB, BIOFAQUIM e FDA foi calculada usando a distância euclidiana das propriedades escalonadas. Além disso, um CDP baseado em impressões digitais moleculares, andaimes e atributos físico-químicos foi utilizado para avaliar a diversidade dos conjuntos de dados. A diversidade baseada em propriedades dos bancos de dados do PeruNPDB, BIOFAQUIM e FDA foi calculada usando a distância euclidiana das propriedades escalonadas. Os valores no gráfico de CD colorido são representados por pontos de dados em uma escala de cores contínua. Tons mais brilhantes denotam maior diversidade, enquanto cores mais escuras denotam menos diversidade. Por último, mas não menos importante, vários tamanhos de pontos são utilizados para mostrar o número relativo de compostos em cada banco de dados, com pontos de dados menores representando bancos de dados com menos moléculas. Como foi descoberto na região onde a maior diversidade de andaimes e impressões digitais deveria estar localizada, os resultados mostraram que os compostos no PeruNPDB tinham a maior diversidade global (Figura 3).
Figura 1: Gráficos de violino para as propriedades físico-químicas. Gráficos de violino para as propriedades físico-químicas dos conjuntos de dados BIOFACQUIM, PeruNPDB e FDA. Clique aqui para ver uma versão maior desta figura.
Figura 2: Representação visual do espaço químico. Representação visual dos conjuntos de dados BIOFACQUIM, PeruNPDB e FDA com base nos principais componentes de seis propriedades de relevância farmacêutica. Clique aqui para ver uma versão maior desta figura.
Figura 3: Gráfico de diversidade de consenso. Gráfico de diversidade de consenso comparando a diversidade global dos conjuntos de dados BIOFACQUIM, PeruNPDB e FDA. Clique aqui para ver uma versão maior desta figura.
Devido aos seus muitos usos potenciais, como classificação de compostos, seleção de compostos, exploração de ligações estrutura-atividade e navegação por interações estrutura-propriedade, o conceito de espaço químico é hoje amplamente empregado no processo de descoberta e desenvolvimento de medicamentos14. Além disso, a criação de bancos de dados NP é um procedimento fundamental para a realização de diversos estudos computacionais, incluindo o projeto de bibliotecas químicas, caracterização e comparação do espaço químico, o estudo de SAR e triagem virtual, entre outros estudos, em decorrência do aumento da quantidade de informações químicas. Em contraste, o treinamento em algoritmos de inteligência artificial (IA) é outra aplicação crucial. IA refere-se a um grupo de técnicas computacionais que permitem que as máquinas imitem os processos cognitivos humanos, incluindo resolução de problemas e aprendizado com a experiência15,16.
Embora os bancos de dados de compostos químicos, incluindo bancos de dados NP, sejam ferramentas importantes na descoberta de medicamentos, também é viável detectar moléculas de impacto potencial usando uma variedade de técnicas de triagem virtual17. Além disso, vários candidatos a medicamentos foram encontrados em bancos de dados NP que têm potencial para tratar doenças, incluindo doença de coronavírus18, doença de Alzheimer19 e leishmaniose20, entre outras. No entanto, devido às restrições atuais no processamento de "big data", o espaço químico de todas as moléculas potenciais em uma determinada amostra biológica ou ambiental pode ser extremamente grande e quase inexplorado21. Embora não existam técnicas únicas ou universais para representações químicas do espaço, uma maneira amplamente utilizada envolve a criação de matrizes de similaridade que incluem todas as comparações em pares22. A maioria das informações pertinentes pode ser reduzida a um pequeno número de variáveis (embora com perda de informações) usando PCA e outras técnicas de redução de dimensionalidade, permitindo a visualização do espaço químico23.
A diversidade de uma biblioteca química pode ser avaliada de várias maneiras, dependendo em grande parte dos dados que estão sendo examinados e, o mais importante, do objetivo do estudo. A representação molecular é um componente crucial da análise da diversidade, além da medida de diversidade24. Embora os scaffolds químicos e os descritores moleculares sejam as duas abordagens usadas para representar as moléculas com mais frequência na análise quimioinformática, algumas delas têm a desvantagem de serem mais difíceis de compreender25 e não necessariamente identificam as coleções; Por exemplo, é típico que vários compostos tenham perfis de propriedades extremamente comparáveis. Portanto, considerar várias representações de estrutura oferece uma imagem mais abrangente da diversidade de bibliotecas compostas. Essa é a base do conceito de multiverso químico, que pode ser definido como um grupo ou coleção de espaços químicos para um mesmo conjunto de dados, cada um definido por um conjunto de descritores26.
Como os CDPs usam várias representações que podem ser divididas em três ou duas dimensões para analisar a diversidade global de conjuntos de dados compostos usando uma variedade de métricas, eles ajudam a comparar e categorizar bibliotecas químicas12.
Os autores declaram não ter nenhum conflito de interesses.
O HLBC e o MACH agradecem o financiamento da Universidad Católica de Santa Maria (subsídios 27499-R-2020, 27574-R-2020, 7309--2020 e 28048-R-2021). A JLMF agradece o financiamento da DGAPA, UNAM, Programa de Apoio a Projetos de Investigação e Inovação Tecnológica (PAPIIT), bolsa nº. IN201321.
Name | Company | Catalog Number | Comments |
GraphPad Prism | GraphPad Prism | https://www.graphpad.com/ | |
KNIME platform | KNIME | https://www.knime.com | |
Osiris DataWarrior (OSIRIS) software | openmolecules.org | https://openmolecules.org/datawarrior/ | |
PUMA | PUMA: Platform for Unified Molecular Analysis | http://132.248.103.152:3838/PUMA/ |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados