Method Article
Hier stellen wir eine Methodik vor, die verschiedene molekulare Darstellungen verwendet, um den chemischen Raum von Datensätzen für Naturstoffe darzustellen und zu analysieren, wobei der Schwerpunkt auf Anwendungen im Zusammenhang mit der Wirkstoffforschung liegt.
Der chemische Raum ist ein mehrdimensionaler Deskriptorraum, der alle möglichen Moleküle umschließt, und es wird angenommen, dass mindestens 1 x 1060 organische Substanzen mit einem Molekulargewicht unter 500 Da potenziell relevant für die Wirkstoffforschung sind. Naturprodukte waren in den letzten vierzig Jahren die Hauptquelle für die neuen pharmakologischen Wirkstoffe, die auf den Markt gebracht wurden, und sind nach wie vor eine der produktivsten Quellen für die Entwicklung innovativer Medikamente. Chemoinformatik-basierte Computerwerkzeuge beschleunigen den Prozess der Arzneimittelentwicklung für Naturstoffe. Es wurden Methoden wie die Schätzung von Bioaktivitäten, Sicherheitsprofile, ADME und die Messung der Ähnlichkeit mit Naturprodukten verwendet. Hier gehen wir auf die jüngsten Entwicklungen bei chemoinformatischen Werkzeugen ein, die entwickelt wurden, um den chemischen Raum von Datensätzen natürlicher Verbindungen mit verschiedenen molekularen Darstellungen zu visualisieren, zu charakterisieren und zu erweitern, visuelle Darstellungen solcher Räume zu erstellen und Struktur-Eigenschaftsbeziehungen innerhalb chemischer Räume zu untersuchen. Mit einem Schwerpunkt auf Drug Discovery Anwendungen evaluieren wir die Open-Source-Datenbanken BIOFACQUIM und PeruNPDB als Proof of Concept.
Naturprodukte (NPs), bei denen es sich um chemische Verbindungen handelt, die von Lebewesen gebildet werden, werden seit Jahrhunderten als traditionelle Behandlungen verwendet. Einzelne NPs wurden in der Neuzeit als Medikamente entwickelt und erfolgreich als Leitverbindungen in der Wirkstoffforschung verwertet1. Meeres-, Pilz-, Bakterien-, Pflanzen- und körpereigene Substanzen, die von Menschen und Tieren gebildet werden, gehören zur Kategorie der bioaktiven Verbindungen, ebenso wie Gifte und Gifte, die von verschiedenen Tieren produziert werden2. Infolgedessen stellte die Anzahl der von NPs hergestellten Medikamente vierzig Jahre lang eine bedeutende Quelle für neue pharmakologische Substanzendar 3, was unterstreicht, dass NPs bei der Entwicklung neuer Medikamente von entscheidender Bedeutung waren, insbesondere für die Behandlung von Krebs und Infektionskrankheiten sowie für andere therapeutische Erkrankungen wie Multiple Sklerose und Herz-Kreislauf-Erkrankungen4. Darüber hinaus handelte es sich bei 64,9 % der 185 kleinen Verbindungen, die zwischen 1981 und 2019 zur Behandlung von Krebs zugelassen wurden, um unmodifizierte NP oder synthetische Arzneimittel mit einem NP-Pharmakophor3.
Die Chemoinformatik, eine etablierte interdisziplinäre Disziplin, die auf dem Konzept des chemischen Raums beruht, wurde verwendet, um den chemischen Raum der physikochemischen Qualitäten von NPs in Verbindung mit arzneimittelähnlichen Eigenschaften zu analysieren und zu visualisieren5. Die Chemoinformatik hat einen erheblichen Einfluss auf das Design und die Entdeckung von Medikamenten auf der Grundlage von NPsgezeigt 6. Der chemische Raum einer Gruppe von Verbindungen ist nicht immer einzigartig. Es wird von der Sammlung von Deskriptoren abhängen, die zur Definition verwendet werden, was bedeutet, dass die Untersuchung des chemischen Raums von NPs wie jeder andere Satz von Verbindungen besondere Herausforderungen mit sich bringt, die auf der molekularen Repräsentation beruhen7. Dieses Unterfangen kann mit einer Vielzahl von molekularen Deskriptoren und Datenvisualisierungstechniken angegangen werden. Im Gegensatz dazu sind die am häufigsten verwendeten Techniken die Hauptkomponentenanalyse (PCA), Gerüstbäume, selbstorganisierende Karten, generative topografische Kartierung (GTM) und eine neuartige Visualisierungstechnik namens Tree Maps (TMAPs)8. Auch die Sammlung, Bewertung und Verbreitung der chemischen Informationen von NP in Verbindungsdatenbanken ist eine der Anwendungen der Chemoinformatik in der NP-Forschung. Im Gegensatz dazu ist dies bei der Einführung von Big Data besonders relevant9.
Hier werden die Open-Source-NP-Datenbanken BIOFACQUIM10 und PeruNPDB11 verwendet, um das Protokoll zu beschreiben, das die Visualisierung und Charakterisierung des chemischen Raums von Naturstoffdatensätzen unter Verwendung verschiedener molekularer Darstellungen sucht, visuelle Darstellungen solcher Räume erstellt und Struktur-Eigenschafts-Beziehungen innerhalb chemischer Räume untersucht, wobei der Schwerpunkt auf Anwendungen in der Wirkstoffforschung liegt.
1. Software-Download und -Installation
2. Aufbau und Kuratierung einer Verbindungsdatenbank
HINWEIS: Suchen Sie nach Stoffen und Quellen, die über die erforderlichen Daten verfügen. Dem Benutzer wird empfohlen, die folgenden Details für jede Verbindung in einer Tabelle zu haben.
3. Molekulare Deskriptoren und Diversitätsanalyse
HINWEIS: Molekulare Deskriptoren, wie z. B. physikalisch-chemische Qualitäten sowie molekulare Fingerabdrücke und chemische Gerüste, sind die gebräuchlichsten Ansätze zur Darstellung von Molekülen in chemoinformatischen Anwendungen. Die Analyse kann hier durchgeführt werden: http://132.248.103.152:3838/PUMA/. Alle unten beschriebenen Schritte sind auf der PUMA-Website ausführlich beschrieben.
4. Visualisierung des chemischen Raumes
HINWEIS: Es ist möglich, den Großteil der relevanten Daten unter Verwendung von PCA und anderen Techniken zur Dimensionalitätsreduktion in eine kleine Anzahl von Variablen zu verdichten. Visualisierungen des chemischen Raumes werden somit ermöglicht.
5. Konsens-Diversitätsdiagramme
HINWEIS: Visuelle Darstellungen wurden entwickelt, um einige Merkmale zusammenzufassen, die zur Quantifizierung der Vielfalt verwendet werden können. Die Analyse der Consensus Diversity Plots (CDPs)12 kann hier http://132.248.103.152:3838/CDPlots/ durchgeführt werden.
Molekulare Eigenschaften und Visualisierung des chemischen Raumes
Für alle Verbindungen in den Datensätzen BIOFACQUIM10, PeruNPDB11 und FDA13 wurden sechs physikalisch-chemische Eigenschaften berechnet. Diese Eigenschaften wurden dann auf Violinplots aufgetragen, die es ermöglichen, zu sehen, wie die Eigenschaften der drei untersuchten Datensätze verteilt sind (Abbildung 1). Die Verteilungsprofile der sechs physikalisch-chemischen Parameter von pharmazeutischem Interesse, nämlich Molekulargewicht (MW), Oktanol/Wasser-Verteilungskoeffizient (clogP), topologische Oberfläche (TPSA), wässrige Löslichkeit (clogS), Anzahl der H-Bindungsdonoratome (HBD) und Anzahl der H-Bindungsakzeptoratome (HBA), unterscheiden sich zwischen den Datensätzen. Die TPSA-Ergebnisse zeigten jedoch signifikante Varianzen beim Vergleich der BIOFACQUIM- und FDA-Datensätze mit PeruNPDB. Mit Hilfe von PCA wurde die Visualisierung des chemischen Raums des Datensatzes durchgeführt. Die 3D-visuelle PCA-Analyse zeigt jedoch, dass sich die Moleküle in beiden NP-Datensätzen grob mit dem chemischen Raum mit der Sammlung der von der FDA zugelassenen Arzneimittel überschneiden. In einigen Bereichen überwiegen jedoch Chemikalien aus PeruNPDB oder BIOFACQUIM (Abbildung 2).
Diversitätsanalyse
Darüber hinaus wurde ein CDP auf Basis von molekularen Fingerabdrücken, Gerüsten und physikalisch-chemischen Attributen verwendet, um die Vielfalt der Datensätze zu bewerten. Die eigenschaftsbasierte Diversität der Datenbanken von PeruNPDB, BIOFAQUIM und FDA wurde unter Verwendung der euklidischen Distanz der skalierten Eigenschaften berechnet. Darüber hinaus wurde ein CDP auf der Grundlage von molekularen Fingerabdrücken, Gerüsten und physikalisch-chemischen Attributen verwendet, um die Vielfalt der Datensätze zu bewerten. Die eigenschaftsbasierte Diversität der Datenbanken von PeruNPDB, BIOFAQUIM und FDA wurde unter Verwendung der euklidischen Distanz der skalierten Eigenschaften berechnet. Die Werte im Farb-CD-Diagramm werden durch Datenpunkte auf einer kontinuierlichen Farbskala dargestellt. Hellere Farbtöne bedeuten eine größere Vielfalt, während dunklere Farben eine geringere Vielfalt bedeuten. Zu guter Letzt werden verschiedene Punktgrößen verwendet, um die relative Anzahl der Verbindungen in jeder Datenbank anzuzeigen, wobei kleinere Datenpunkte Datenbanken mit weniger Molekülen darstellen. Da es in der Region entdeckt wurde, in der die größte Diversität an Gerüsten und Fingerabdrücken zu finden sein sollte, zeigten die Ergebnisse, dass die Verbindungen in der PeruNPDB die größte globale Diversität aufwiesen (Abbildung 3).
Abbildung 1: Geigendiagramme für die physikalisch-chemischen Eigenschaften. Violinplots für die physikalisch-chemischen Eigenschaften von BIOFACQUIM-, PeruNPDB- und FDA-Datensätzen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 2: Visuelle Darstellung des chemischen Raumes. Visuelle Darstellung von BIOFACQUIM-, PeruNPDB- und FDA-Datensätzen basierend auf den Hauptkomponenten von sechs pharmazeutisch relevanten Eigenschaften. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 3: Konsensus-Diversitätsdiagramm. Konsensus-Diversitätsdiagramm, das die globale Vielfalt von BIOFACQUIM-, PeruNPDB- und FDA-Datensätzen vergleicht. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Aufgrund seiner vielen Anwendungsmöglichkeiten, wie z. B. der Klassifizierung von Verbindungen, der Auswahl von Verbindungen, der Erforschung von Struktur-Wirkungs-Verknüpfungen und der Navigation durch Struktur-Eigenschafts-Wechselwirkungen, wird das Konzept des chemischen Raums heutzutage häufig im Prozess der Wirkstoffforschung und -entwicklung eingesetzt14. Auch die Erstellung von NP-Datenbanken ist ein grundlegendes Verfahren zur Durchführung verschiedener Computerstudien, einschließlich der Erstellung chemischer Bibliotheken, der Charakterisierung und des Vergleichs des chemischen Raums, der Untersuchung von SAR und des virtuellen Screenings, unter anderem als Folge der Zunahme der Menge an chemischen Informationen. Im Gegensatz dazu ist das Training von Algorithmen der künstlichen Intelligenz (KI) eine weitere wichtige Anwendung. KI bezieht sich auf eine Gruppe von Rechentechniken, die es Maschinen ermöglichen, menschliche kognitive Prozesse nachzuahmen, einschließlich Problemlösung und Lernen aus Erfahrungen15,16.
Obwohl Datenbanken für chemische Verbindungen, einschließlich NP-Datenbanken, wichtige Instrumente in der Wirkstoffforschung sind, ist es auch möglich, potenzielle Treffermoleküle mit einer Vielzahl von virtuellen Screening-Techniken zu erkennen17. Darüber hinaus wurden in NP-Datenbanken mehrere Medikamentenkandidaten gefunden, die das Potenzial haben, Krankheiten zu behandeln, darunter die Coronavirus-Krankheit18, die Alzheimer-Krankheit19 und die Leishmaniose20. Aufgrund der derzeitigen Einschränkungen bei der Verarbeitung von "Big Data" kann der chemische Raum aller potenziellen Moleküle in einer bestimmten biologischen oder Umweltprobe jedoch extrem groß und größtenteils unerforscht sein21. Obwohl es keine einzigartigen oder universellen Techniken für chemische Raumdarstellungen gibt, besteht eine weit verbreitete Methode darin, Ähnlichkeitsmatrizen zu erstellen, die alle paarweisen Vergleicheenthalten 22. Der Großteil der relevanten Information kann unter Verwendung von PCA und anderen Techniken zur Dimensionalitätsreduktion in eine kleine Anzahl von Variablen reduziert werden (wenn auch unter Verlust von Informationen), was die Visualisierung des chemischen Raumsermöglicht 23.
Die Diversität einer chemischen Bibliothek kann auf verschiedene Weise bewertet werden, weitgehend abhängig von den untersuchten Daten und vor allem vom Ziel der Studie. Die molekulare Repräsentation ist neben dem Diversitätsmaß24 ein wesentlicher Bestandteil der Diversitätsanalyse. Obwohl chemische Gerüste und molekulare Deskriptoren die beiden Ansätze sind, die zur Darstellung von Molekülen in der chemoinformatischen Analyse am häufigsten verwendet werden, haben einige von ihnen den Nachteil, dass sie schwieriger zu verstehen sind25 und die Sammlungen nicht unbedingt identifizieren; So ist es typisch, dass verschiedene Verbindungen extrem vergleichbare Eigenschaftsprofile aufweisen. Daher bietet die Betrachtung verschiedener Strukturdarstellungen ein umfassenderes Bild der Vielfalt der Verbindungsbibliotheken. Dies ist die Grundlage des Konzepts des chemischen Multiversums, das als eine Gruppe oder Sammlung chemischer Räume für denselben Datensatz definiert werden kann, von denen jeder durch einen Satz von Deskriptoren26 definiert ist.
Da CDPs mehrere Darstellungen verwenden, die in drei oder zwei Dimensionen unterteilt werden können, um die globale Vielfalt von Verbindungsdatensätzen anhand einer Vielzahl von Metriken zu analysieren, helfen sie beim Vergleich und der Kategorisierung chemischer Bibliotheken12.
Die Autoren erklären, dass sie keinen Interessenkonflikt haben.
HLBC und MACH danken der Universidad Católica de Santa Maria für die Finanzierung (Zuschüsse 27499-R-2020, 27574-R-2020, 7309-CU-2020 und 28048-R-2021). JLMF dankt der Finanzierung durch DGAPA, UNAM, Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT), Grant No. IN201321.
Name | Company | Catalog Number | Comments |
GraphPad Prism | GraphPad Prism | https://www.graphpad.com/ | |
KNIME platform | KNIME | https://www.knime.com | |
Osiris DataWarrior (OSIRIS) software | openmolecules.org | https://openmolecules.org/datawarrior/ | |
PUMA | PUMA: Platform for Unified Molecular Analysis | http://132.248.103.152:3838/PUMA/ |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten