Method Article
Hier beschreiben wir ein detailliertes Protokoll für eine LC-MS-basierte Sequenzierungsmethode, die als direkte Methode zur Sequenzierung kurzer RNA (<35 nt pro Lauf) ohne cDNA-Zwischenprodukt und als allgemeine Methode zur Sequenzierung verschiedener Nukleotidmodifikationen in einer einzigen Studie mit Einzelbasenpräzision verwendet werden kann.
Massenspektrometrie (MS)-basierte Sequenzierungsansätze haben sich bei der direkten Sequenzierung von RNA als nützlich erwiesen, ohne dass ein komplementäres DNA-Zwischenprodukt (cDNA) erforderlich ist. Solche Ansätze werden jedoch selten als De-novo-RNA-Sequenzierungsmethode angewendet, sondern hauptsächlich als Werkzeug verwendet, das bei der Qualitätssicherung zur Bestätigung bekannter Sequenzen von gereinigten einzelsträngigen RNA-Proben helfen kann. Vor kurzem haben wir eine direkte RNA-Sequenzierungsmethode entwickelt, indem wir eine 2-dimensionale hydrophobe Endmarkierungsstrategie mit Massenretentionszeit in die MS-basierte Sequenzierung (2D-HELS MS Seq) integriert haben. Diese Methode ist in der Lage, sowohl einzelne RNA-Sequenzen als auch Mischungen mit bis zu 12 verschiedenen RNA-Sequenzen genau zu sequenzieren. Zusätzlich zu den vier kanonischen Ribonukleotiden (A, C, G und U) ist das Verfahren in der Lage, RNA-Oligonukleotide zu sequenzieren, die modifizierte Nukleotide enthalten. Dies ist möglich, weil die modifizierte Nukleobase entweder eine intrinsisch einzigartige Masse hat, die bei ihrer Identifizierung und ihrer Position in der RNA-Sequenz helfen kann, oder in ein Produkt mit einer einzigartigen Masse umgewandelt werden kann. In dieser Studie haben wir RNA verwendet, die zwei repräsentative modifizierte Nukleotide (Pseudouridin (Ψ) und 5-Methylcytosin (m5C)) enthält, um die Anwendung der Methode zur De-novo-Sequenzierung eines einzelnen RNA-Oligonukleotids sowie einer Mischung von RNA-Oligonukleotiden mit jeweils unterschiedlicher Sequenz und/oder modifizierten Nukleotiden zu veranschaulichen. Die hier beschriebenen Verfahren und Protokolle zur Sequenzierung dieser Modell-RNAs sind auf andere kurze RNA-Proben (<35 nt) anwendbar, wenn ein hochauflösendes Standard-LC-MS-System verwendet wird, und können auch zur Sequenzverifizierung von modifizierten therapeutischen RNA-Oligonukleotiden verwendet werden. In Zukunft könnte diese Methode mit der Entwicklung robusterer Algorithmen und besserer Instrumente die Sequenzierung komplexerer biologischer Proben ermöglichen.
Massenspektrometrie (MS)-basierte Sequenzierungsmethoden, einschließlich Top-down-MS und Tandem-MS 1,2,3,4, wurden für die direkte Sequenzierung von RNA entwickelt. In-situ-Fragmentierungstechniken zur effektiven Erzeugung hochwertiger RNA-Leitern in Massenspektrometern können jedoch derzeit nicht auf die De-novo-Sequenzierung angewendet werden 5,6. Darüber hinaus ist es nicht sehr trivial, die traditionellen eindimensionalen (1D) MS-Daten für die De-novo-Sequenzierung auch nur einer gereinigten RNA-Sequenz zu analysieren, und es wäre eine noch größere Herausforderung für die MS-Sequenzierung von gemischten RNA-Proben 7,8. Aus diesem Grund wurde eine zweidimensionale (2D) Flüssigchromatographie (LC)-MS-basierte RNA-Sequenzierungsmethode entwickelt, die die Herstellung von 2D-Massenretentionszeitleitern (tR) umfasst, um 1D-Massenleitern zu ersetzen, was die Identifizierung von Leiterkomponenten, die für die De-novo-Sequenzierung von RNAs benötigt werden, erheblich erleichtert8. Die 2D-LC-MS-basierte RNA-Sequenzierungsmethode ist jedoch hauptsächlich auf gereinigte synthetische Kurz-RNA beschränkt, da sie keine vollständige Sequenz allein auf der Grundlage einer einzigen Leiter lesen kann, sondern sich auf zwei nebeneinander existierende Leitern (5'- und 3'-Leitern) stützen muss8. Genauer gesagt erfordert dieser Ansatz bidirektionale Paired-End-Reads zum Lesen von terminalen Nukleobasen in der Region mit geringer Masse8. Die zusätzliche Komplexität des Paired-End-Readings führt dazu, dass diese Methode für die Sequenzierung von RNA-Gemischen unhaltbar ist, da bei den unbekannten Proben Verwirrung darüber entsteht, welches Leiterfragment zu welcher Leiter gehört.
Um die oben genannten Barrieren bei MS-basierten RNA-Sequenzierungsansätzen zu überwinden und solche Anwendungen in der direkten RNA-Sequenzierung zu erweitern, müssen zwei Fragen angegangen werden: 1) wie kann eine qualitativ hochwertige Massenleiter generiert werden, mit der eine vollständige Sequenz vom ersten bis zum letzten Nukleotid in einem RNA-Strang gelesen werden kann, und 2) wie kann jede RNA/Massenleiter in einem komplexen MS-Datensatz effektiv identifiziert werden. Zusammen mit einem gut kontrollierten Säureabbau haben wir eine neue Sequenzierungsmethode entwickelt, indem wir eine hydrophobe Endmarkierungsstrategie (HELS) in die MS-basierte Sequenzierungstechnik eingeführt haben, und diese beiden Probleme erfolgreich gelöst, indem wir entweder am 5'- und/oder 3'-Ende der zu sequenzierenden RNAs einen hydrophoben Tag hinzugefügt haben9. Diese Methode erzeugt eine "ideale" Sequenzleiter aus RNA – jedes Leiterfragment stammt ausschließlich an jeder Phosphodiesterbindung aus der ortsspezifischen RNA-Spaltung, und die Massendifferenz zwischen zwei benachbarten Leiterfragmenten ist die exakte Masse des Nukleotids oder der Nukleotidmodifikation an dieser Position 8,9,10. Dies ist möglich, weil wir einen hochgradig kontrollierten sauren Hydrolyseschritt einbauen, bei dem die RNA durchschnittlich einmal pro Molekül fragmentiert wird, bevor sie in das Instrument injiziert wird. Als Ergebnis wird jedes Abbaufragmentprodukt auf dem Massenspektrometer detektiert und alle Fragmente zusammen bilden eine Sequenzierungsleiter 8,9,10. Diese neue Strategie ermöglicht das vollständige Lesen einer RNA-Sequenz von einer einzigen Leiter eines RNA-Strangs ohne Paired-End-Lesen von der anderen Leiter der RNA und ermöglicht zusätzlich die MS-Sequenzierung von RNA-Gemischen mit mehreren verschiedenen Strängen, die kombinatorische Nukleotidmodifikationen enthalten9. Durch Hinzufügen eines Tags am 5'- und/oder 3'-Ende der RNA weisen die markierten Leiterfragmente eine signifikante Verzögerung von tR auf, was dazu beitragen kann, die beiden Massenleitern voneinander und auch von der verrauschten Region mit geringer Masse zu unterscheiden. Die durch das Hinzufügen des hydrophoben Tags verursachte Verschiebung von mass-tR erleichtert die Identifizierung der Massenleiter und vereinfacht die Datenanalyse für die Sequenzgenerierung. Darüber hinaus kann die Hinzufügung des hydrophoben Tags dazu beitragen, die terminale Basis in dem Strang zu identifizieren, indem verhindert wird, dass sich das entsprechende Leiterfragment aufgrund der durch den Tag verursachten Massen- und Hydrophobizitätszunahme in der verrauschten R-Region mit geringer Masse befindet, wodurch die Identifizierung der vollständigen Sequenz einer RNA von einer einzigen Leiter ermöglicht wird; Es sind keine Lesevorgänge mit gekoppelten Enden erforderlich. Als Ergebnis haben wir bereits die erfolgreiche Sequenzierung einer komplexen Mischung von bis zu 12 unterschiedlichen RNA-Strängen ohne den Einsatz eines fortschrittlichen Sequenzierungsalgorithmus9 demonstriert, was die Tür für die De-novo-MS-Sequenzierung von RNA öffnet, die sowohl kanonische als auch modifizierte Nukleotide enthält, und sie für die Sequenzierung von gemischten und komplexeren RNA-Proben praktikabler macht. Mit 2D-HELS MS Seq haben wir sogar erfolgreich eine gemischte Population von tRNA-Probensequenziert 10 und weiten die Anwendung aktiv auf andere komplexe RNA-Proben aus.
Um 2D-HELS MS Seq die direkte Sequenzierung eines breiteren Spektrums von RNA-Proben zu erleichtern, konzentrieren wir uns hier auf die technischen Aspekte dieses Sequenzierungsansatzes und decken alle wesentlichen Schritte ab, die bei der Anwendung der Technik zur direkten Sequenzierung von RNA-Proben erforderlich sind. Zur Veranschaulichung der Sequenzierungstechnik werden spezifische Beispiele verwendet, einschließlich synthetischer Einzel-RNA-Sequenzen, Mischungen aus mehreren unterschiedlichen RNA-Sequenzen und modifizierter RNAs, die sowohl kanonische als auch modifizierte Nukleotide wie Pseudouridin (ψ) und 5-Methylcytosin (m5C) enthalten. Da alle RNAs Phosphodiesterbindungen enthalten, kann jede Art von RNA säurehydrolysiert werden, um eine ideale Sequenzleiter für 2D-HELS MS Seq unter optimalen Bedingungen zu erzeugen 8,9. Der Nachweis aller Leiterfragmente einer gegebenen RNA ist jedoch instrumentenabhängig. Bei einer standardmäßigen hochauflösenden LC-MS (40 K) beträgt die minimale Lademenge für die Sequenzierung einer gereinigten kurzen RNA-Probe (<35 nt) 100 pmol pro Lauf. Es wird jedoch mehr Material benötigt (bis zu 400 pmol pro RNA-Probe), wenn zusätzliche Experimente durchgeführt werden müssen (z. B. zur Unterscheidung von isomeren Basenmodifikationen mit identischen Massen). Das Protokoll, das bei der Sequenzierung der synthetischen modifizierten RNAs des Modells verwendet wird, wird auch für die Sequenzierung breiterer RNA-Proben anwendbar sein, einschließlich biologischer RNA-Proben mit unbekannten Basenmodifikationen. Es ist jedoch eine noch größere Probenmenge, wie z. B. 1000 pmol für die Sequenzierung von tRNA (~76 nt) mit einem Standard-LC-MS-Instrument, erforderlich, um die vollständige tRNA mit allen Modifikationen zu sequenzieren, und für die De-novo-Sequenzierung muss ein fortschrittlicher Algorithmus entwickelt werden10.
1. Entwerfen Sie RNA-Oligonukleotide
2. Markieren Sie das 3'-Ende von RNAs mit Biotin
3. Erfassen Sie biotinylierte RNA-Proben auf Streptavidin-Kügelchen
4. Saure Hydrolyse von RNA zur Erzeugung von MS-Leitern für die Sequenzierung
5. Konvertieren Sie ψ in CMC-ψ Addukt
6. LC-MS-Messung
7. Automatisieren Sie die Generierung von RNA-Sequenzen durch einen Berechnungsalgorithmus
HINWEIS: Dieses Verfahren ist nur für RNA #1 in Abbildung 1c dargestellt.
8. Sequenzierung von RNA-Gemischen
Einführung eines Biotin-Tags am 3'-Ende der RNA, um leicht identifizierbare Leiterleitern der Stärke tR herzustellen. Der Arbeitsablauf des 2D-HELS MS Seq-Ansatzes ist in Abbildung 1a dargestellt. Die hydrophobe Biotinmarkierung, die an das 3'-Ende der RNA eingeführt wird (siehe Abschnitt 2), erhöht die Massen undt Rs der 3'-markierten Leiterkomponenten im Vergleich zu denen ihrer unmarkierten Gegenstücke. Somit wird die 3'-Kontaktkurve im 2D-Masse-tR-Diagramm auf größere Werte der y-Achse verschoben (aufgrund der Zunahme dert Rs) und auf größere Werte der x-Achse (aufgrund der Zunahme der Massen). Abbildung 1b zeigt das Probenvorbereitungsprotokoll einschließlich der Einführung eines Biotin-Tags an das 3'-Ende der RNA für 2D-HELS MS Seq. Abbildung 1c zeigt die Trennung der 3'-Leiter von der 5'-Leiter und anderer unerwünschter Fragmente in einem 2D-Mass-tR-Diagramm basierend auf systematischen Änderungen dert Rs der 3'-Biotin-markierten Massen-t R-Leiterfragmente von RNA #1. Die 3'-Leiterkurve allein ergibt eine vollständige Sequenz von RNA #1, und die 5'-Leiterkurve, die keine tR-Verschiebung zeigt, liefert die umgekehrte Sequenz, erfordert jedoch eine Endpaarung zum Lesen der terminalen Basis8. Mit dieser Strategie des 2D-HELS ist keine Endpaarung erforderlich, wie zuvor berichtet, und die gesamte RNA-Sequenz kann vollständig aus nur einer markierten Kontaktleiterkurve8 ausgelesen werden. Auf diese Weise ist es möglich, gemischte Proben, die mehrere RNAs enthalten, zu sequenzieren, z. B. zwei RNA-Stränge unterschiedlicher Länge (RNA #1 und RNA #2, 19 nt bzw. 20 nt) mit einer 5'-Biotin-Markierung an jeder RNA (Abbildung 1d).
Konvertierung ψ in sein CMC-ψ Addukt für 2D-HELS MS Seq. ψ ist eine schwierige Nukleotidmodifikation für die MS-basierte Sequenzierung, da sie die gleiche Masse wie Uridin (U) hat. Um diese beiden Basen voneinander zu unterscheiden, behandeln wir die RNA mit CMC, wodurch ein ψ in ein CMC-ψ Addukt umgewandelt wird (siehe Abschnitt 5). Das Addukt hat eine andere Masse als U und kann in der 2D-HELS MS Seq unterschieden werden. Abbildung 2a zeigt das HPLC-Profil des Rohprodukts der Reaktion, das ψ in RNA #6 in sein CMC-Addukt umwandelt. Durch die Integration ihrer UV-Peaks berechneten wir die prozentuale Umwandlung und 42 % ψ werden nach dem in Abschnitt 5 dargestellten Prozess in sein CMC-ψ-Addukt umgewandelt. Nach dem Säureabbau und der LC-MS-Messung erfassten wir die Sequenz manuell sowohl auf der Grundlage von nicht-CMC-konvertierten Leitern als auch von CMC-konvertierten Leitern, die aus den algorithmusverarbeiteten Daten identifiziert wurden 8,9. Eine rote Kurve verzweigt sich von der grauen Kurve ab ψ an Position 8 in RNA #6 (Abbildung 2b) aufgrund der teilweisen Umwandlung von ψ in das CMC-ψ-Addukt. Aufgrund der Masse und Hydrophobizität des CMC führt diese Umwandlung zu einer Zunahme der Masse um 252,2076 Dalton und einer signifikanten Zunahme von tR für jede CMC-ψ addukthaltige Leiterkomponente im Vergleich zu seinem nicht umgesetzten Gegenstück. Daher kann eine dramatische Verschiebung ab Position 8 in RNA #6 im 2D-mass-tR-Diagramm beobachtet werden, was darauf hindeutet, dass Position 8 tatsächlich eine ψ in RNA #6 ist.
Sequenzierung von RNA-Mischungen. Eine Mischung aus fünf verschiedenen RNA-Strängen wird durch den 2D-HELS MS Seq-Ansatz mit 3'-End-Markierung sequenziert (siehe Abschnitt 8). Das Problem bei der Sequenzierung gemischter RNAs besteht darin, dass sich mehrere Leiterkurven im2D-Mass-t-R-Diagramm überlappen können, wenn sie alle dieselben Startpunkte haben (das hydrophobe Tag im 2D-Massen-tR-Diagramm). Der Basisaufruf erfolgt jedoch nacheinander, jeweils basierend auf einer Massendifferenz zwischen zwei benachbarten Kontaktplanfragmenten in den MFE-Daten. Der korrekte Basenaufruf kann durchgeführt werden, solange jede Massendifferenz gut übereinstimmt (eine PPM-MS-Differenz < 10) mit einer der theoretischen Massen kanonischer oder modifizierter Nukleotide im Datenpool 8,9. Bei der Analyse der gemultiplexten RNA-Proben wird der in Abbildung 1 und 2 verwendete typische Verarbeitungs- und Basenaufrufalgorithmus vor allem aufgrund der deutlich erhöhten Datenkomplexität, die sich aus der Mischung ergibt, nicht verwendet. Diese Sequenzen werden manuell als Basis aufgerufen, indem die Massendifferenz zwischen zwei benachbarten Massenleiterfragmenten berechnet und mit der theoretischen Masse des Nukleotids im Datenpool9 verglichen wird. Jede übereinstimmende Basis mit einem Massen-PPM <10 wird an dieser Position als Basisidentität ausgewählt. Mit dieser manuellen Base-by-Base-Berechnung für das Base-Calling werden alle Sequenzen in der Mischung genau sequenziert. Die OriginLab-Software wird verwendet, um ein 2D-Mass-t-R-Diagramm zu rekonstruieren, in dem das Anfangs-tR für jede Sequenz systematisch normalisiert wird, um fünf verschiedene RNA-Sequenzen besser sichtbar zu machen (Abbildung 3). Ohne eine solche Normalisierung würden die Buchstabencodes (d. h. A, C, G und U) für die Sequenzen aller fünf RNAs im Diagramm zusammengedrängt (Abbildung S1), was zu einer geringeren Visualisierung im Vergleich zu der in Abbildung 3 berichteten führt. Die Sequenzierungsergebnisse zeigen, dass der 2D-HELS MS Seq-Ansatz nicht nur auf die Sequenzierung von gereinigten einzelsträngigen RNAs beschränkt ist, sondern vor allem auch auf RNA-Mischungen mit mehreren RNA-Strängen. Derzeit befinden sich Algorithmen in der Entwicklung, um den Prozess des Base-Aufrufs und der Sequenzgenerierung zu automatisieren.
Abbildung 1. 2D-HELS MS Seq von repräsentativen RNA-Proben. (a) Arbeitsablauf für 2D-HELS MS Seq. Zu den wichtigsten Schritten gehören 1) die hydrophobe Markierung der zu sequenzierenden RNA, 2) die saure Hydrolyse, 3) die LC-MS-Messung, 4) die Extraktion und Analyse von MFE-Daten und 5) die Sequenzgenerierung über Algorithmen oder manuelle Berechnung. (b) Probenvorbereitungsprotokoll einschließlich des Einführens eines Biotin-Tags an das 3'-Ende der RNA für 2D-HELS MS Seq. (c) Trennung der 3'-Leiter von der 5'-Leiter und anderer unerwünschter Fragmente in einem 2D-Plot mit Massenretentionszeit (tR) auf der Grundlage systematischer Änderungen dert Rs von 3'-Biotin-markiertenMasse-t R-Leiterfragmenten der RNA #1 (19 nt). Die Sequenzen sind de novo und werden automatisch direkt durch einen basenaufrufenden Algorithmus9 ausgelesen. (d) Gleichzeitige Sequenzierung von 5'-Biotin-markierter RNA #1 und RNA #2, 19 nt bzw. 20 nt. Methoden zum Einbringen eines Biotin-Tags an das 5'-Ende der RNA unterscheiden sich von denen der 3'-Biotinylierung und sind im zuvor veröffentlichten Protokoll9 zu finden. Das 5'-Ende von zwei RNAs (RNA #1 und RNA #2) ist biotinyliert und ihre 5'-biotinylierten Leitern können leicht identifiziert werden; Beide 5'-biotinylierten Leitern lassen sich im 2D-mass-t R-Plot nach LC-MS leicht von ihren unmarkierten 3'-Leitern trennen, da die biotinylierten Leiterkomponenten aufgrund der Hydrophobizität des Biotins die größeren tR-Verschiebungen aufweisen, während sich unmarkierte Leiterkomponenten im unteren tR-Bereich befinden. Obwohl die 5'-Leitern und 3'-Leitern nebeneinander existieren, beeinträchtigen sie die Sequenzinterpretation zweier gemischter RNA-Stränge nicht. Jede Sequenz dieser beiden RNAs wird manuell von 5'-biotinylierten Leitern auf der Grundlage der durch den Computeralgorithmus verarbeiteten Daten 8,9 gewonnen. Diese Abbildung wurde von Zhang et al.9 modifiziert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 2. Umwandlung von Pseudouridin (ψ) in sein Addukt für 2D-HELS MS Seq. (a) HPLC-Profil des Rohprodukts der Reaktion, das ψ in sein CMC-Addukt in einer 20-nt-RNA (RNA #6) umwandelt, die eine ψ enthält. (b) Sequenzierung einer ψ-haltigen RNA #6. Die Umwandlung des ψ in die CMC-ψ-Addukte (ψ*) führt zu einer Zunahme der Masse um 252,2076 Dalton und einer signifikanten Zunahme von tR aufgrund seiner Masse und Hydrophobie des CMC. Daher kann immass-t R-Diagramm eine dramatische Verschiebung ab der Position von 8 beobachtet werden, was darauf hindeutet, dass es sich um eine ψ an der Position von 8 in der RNA-Sequenz handelt. Die Sequenzen werden manuell auf der Grundlage der vom Berechnungsalgorithmus verarbeiteten Daten 8,9 erfasst. Diese Abbildung wurde von Zhang et al.9 modifiziert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 3. Sequenzierung von RNA-Gemischen, die fünf verschiedene RNAs enthalten. Ein Biotin wird verwendet, um jede RNA an ihrem 3'-Ende vor 2D-HELS MS Seq zu markieren. Für jede Sequenz werden dietR-Startwerte systematisch so normalisiert, dass sie in 7-Minuten-Intervallen beginnen, um die Visualisierung zu erleichtern. Die absoluten Differenzen zwischen dem anfänglichen tR-Wert und den nachfolgenden tRs bleiben für jede der fünf RNAs unverändert, so dass es einfacher ist, jede von ihnen im selben Diagramm zu visualisieren. Alle Basen werden identifiziert, indem die Massenunterschiede zweier benachbarter Leiterkomponenten manuell berechnet und mit den theoretischen Massenunterschieden in der RNA-Nukleotid- und Modifikationsdatenbank8 abgeglichen werden; Die Diagramme für Abbildung 3 wurden mit OriginLab auf der Grundlage manueller Basenaufruf- und Sequenzierungsdaten rekonstruiert (siehe Abschnitt Sequenzierung von RNA-Mischungen in Repräsentative Ergebnisse). Die 2D-Masse-tR-Abbildung der fünf gemischten RNAs ohnetR-Normalisierung ist in Abbildung S1 dargestellt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung S1. Bitte klicken Sie hier, um diese Datei herunterzuladen.
Im Gegensatz zur tandembasierten MS-Fragmentierung wird beim 2D-HELS MS Seq-Ansatz eine hochgradig kontrollierte saure Hydrolyse verwendet, um die RNA vor der Analyse mit einem Massenspektrometerzu fragmentieren 9,10. Dadurch kann jedes säureabgebaute Fragment mit dem Instrument detektiert werden, was einer Sequenzierungsleiter entspricht. Unter optimalen Bedingungen erzeugt dieses Verfahren eine "ideale" Sequenzleiter aus RNA über eine durchschnittlich ein-pro-Molekül-ortsspezifische RNA-Spaltung ausschließlich an einer Phosphodiesterbindung 8,9,10. Nachdem jedes degradierte Fragment mit dem Massenspektrometer in einem einzigen Lauf gemessen wurde, entspricht die Massendifferenz zwischen zwei benachbarten Leiterfragmenten der exakten Masse des RNA-Nukleotids oder der RNA-Modifikation an dieser Position. Jede RNA-Modifikation hat entweder eine intrinsische einzigartige Masse, die helfen kann, sie in der RNA zu identifizieren und zu lokalisieren, oder sie kann in eine mit einer einzigartigen Masse umgewandelt werden. Theoretisch kann diese Methode also die Identität und den Ort sowohl von kanonischen als auch von modifizierten Nukleotiden für die de novo und direkte Sequenzierung jeder RNA melden. Verschiedene Sequenzleitern können sich jedoch überlappen, was die Datenanalyse von MS erschwert und die RNA-Sequenzierung mit MS in der Praxis erschwert.
Einer der Vorteile des 3'-hydrophoben Tags besteht darin, dass er eine große Herausforderung bei jeder Fragmentierungsmethode überwindet, d.h. dass jedes RNA-Molekül in genau zwei Fragmente (und idealerweise nicht mehr) gespalten werden muss: ein Fragment, das das ursprüngliche 5'-Ende enthält, und das andere, das das ursprüngliche 3'-Ende der RNA enthält. Daher erzeugt jedes Spaltungsereignis zwei Fragmente, die zwei Leitern erzeugen – eine gemessen vom 5'-Ende und die andere vom 3'-Ende. Es gibt immer Unklarheiten bei der Bestimmung, welcher MS-Peak zu welcher Leiter gehört. Problematischer wird dies bei einer Mischung aus mehreren verschiedenen RNAs, da eine große Anzahl von überlappenden Sequenzleitern entsteht. Da jedoch alle Leiterfragmente von den 3'-Enden mit einem hydrophoben Tag markiert sind, weisen sie deutlich längere tRs auf (Abbildung 1a). Als Ergebnis können wir klare und eindeutige Leitern in den 2D-mass-t-R-Daten erhalten, die ausschließlich aus der 3'-markierten RNA stammen. Insbesondere optimieren wir Ansätze, um entweder das 5'- oder das 3'-Ende einer RNA selektiv mit verschiedenen chemischen Konjugationsmethoden zu markieren9. Wir können auch eine bidirektionale Sequenzierung durchführen, die hier nicht zur Bestimmung der terminalen(n) Base(s) verwendet wird, sondern verwendet wird, um beim Lesen aus 5'- und 3'- Richtungen zweimal identische Sequenzinformationen zu liefern (d.h. bidirektionale Sequenzierungsverifizierung), und so die Genauigkeit der Sequenzierung weiter zu verbessern.
Für die De-novo-Sequenzierung unbekannter RNA-Proben, insbesondere für komplexe biologische Proben, ist ein allgemeiner und robuster Algorithmus erforderlich, um eine große Menge an LC-MS-Daten für die Sequenzgenerierung genau und effizient zu verarbeiten, der kürzlich durch andere veröffentlichte Arbeiten verfügbar geworden ist10. Obwohl diese Algorithmen für die Sequenzierung komplizierterer Proben10 verwendet wurden, führten wir in dieser Studie, sofern nicht anders angegeben, manuelle Basenaufrufe für die Sequenzgenerierung durch. Unser Ziel ist es, alle wichtigen Schritte im 2D-HELS MS Seq abzudecken und möchte den Prozess veranschaulichen, bei dem wir auch ohne den Einsatz zusätzlicher Sequenzierungsalgorithmen Sequenzen der zu sequenzierenden RNA manuell auslesen können. Zur Vereinfachung der Visualisierung und zur schnelleren Identifizierung von Kontaktplanfragmenten, die für die Sequenzierung im 2D-mass-tR-Diagramm benötigt werden, werden die MFE-Dateien jedes LC-MS-Laufs vor dem Lesen ihrer Sequenzen durch eine überarbeitete Version eines veröffentlichten Algorithmus8 verarbeitet, sofern nicht anders angegeben. Der veröffentlichte Algorithmus kann nicht direkt zum Auslesen der Sequenzen aus den LC-MS-Daten verwendet werden, aber ein Teil seiner Funktion kann dennoch zur Verarbeitung der Daten verwendet werden – die hierarchische Clusterung von Massenaddukten durch diesen Algorithmus erhöht die Intensität jeder Kontaktplankomponente, was wiederum die Datenkomplexität reduziert, insbesondere in dem entscheidenden Bereich, in dem Sequenz-Reads generiert werden8, 9. Urheberrecht
Einer der entscheidenden Schritte während der Probenvorbereitung für 2D-HELS MS Seq führt zu einer Verbesserung der Effizienz der hydrophoben Markierung von RNA-Markierungen. Eine hohe Markierungseffizienz kann dazu beitragen, die Menge an RNA-Proben zu reduzieren, die für die Erzeugung von MS-Signalen benötigt werden, auf die die Sequenzdaten angewiesen sind. Um die Markierungseffizienz zu erhöhen, setzen wir neue Markierungsstrategien ein, einschließlich der Verwendung von aktiviertem AppCp-Biotin, um den Adenylierungsschritt bei der Markierung des 3'-Endes der RNA zu vermeiden. Die Ausbeute der Reaktion zur Markierung des 3'-Endes einer 19 nt-RNA mit Biotin (siehe Schritt 2.2) kann mit dieser einstufigen Methode von 60 % auf ~95 %9 verbessert werden. Mit der effizienten Markierung sind wir in der Lage, eine gemischte Probe mit bis zu 12 verschiedenen RNAs zu sequenzieren, wie zuvor beschrieben9. In dieser Studie verwenden wir eine Mischung aus fünf RNAs als repräsentatives Beispiel, um den Sequenzierungsprozess zu veranschaulichen. Wir detektieren auch alle Leiterfragmente, die für eine genaue Sequenzierung benötigt werden, und lesen die vollständigen Sequenzen jeder der fünf RNA-Sequenzen in der Mischung aus. Eine höhere Etikettierungseffizienz trägt nicht nur zur Minimierung der Probenlademenge bei, sondern trägt auch zu einer deutlichen Reduzierung der Datenkomplexität bei der nachgelagerten Datenanalyse für die Sequenzgenerierung bei. Neuartige Reaktionen befinden sich derzeit in der Entwicklung, um eine quantitative Ausbeute bei der Markierung von RNAs sowohl am 5'- als auch am 3'-Ende zu erzielen.
Bei der Sequenzierung von RNA #1, wie in Abbildung 1c gezeigt, werden Streptavidin-Capture- und -Release-Schritte verwendet, um biotinylierte RNA #1 vor dem Säureabbau physikalisch zu trennen (siehe Abschnitt 3). Dadurch wird ein kleiner Teil der unmarkierten RNA entfernt, was in der Folge zu einer einfacheren visuellen Identifizierung der markierten Massenleitern im2D-mass-t-R-Diagramm führt. Der physikalische Trennschritt ist jedoch nicht obligatorisch, da die biotinylierten RNA-Leiterfragmente aufgrund der Hydrophobizität des Biotin-Tags im Vergleich zu ihren unmarkierten Gegenstücken verzögerte/längere tRs aufweisen. Darüber hinaus beruht das Base-Calling nicht auf einer physikalischen Trennung, sondern auf den Massenunterschieden benachbarter Massenleiterkomponenten, so dass der korrekte Basenaufruf erreicht werden kann, solange die Massenunterschiede zweier benachbarter Leiterkomponenten gut mit den entsprechenden Massen eines bestimmten Nukleotids oder einer Modifikation in der RNA-Nukleotid- und Modifikationsdatumsbasis8 übereinstimmen. Ein Berechnungsalgorithmus befindet sich derzeit in der Entwicklung, um das Aufrufen von Basen und die Generierung von Sequenzen zu automatisieren.
Die MFE-Einstellungen beim ursprünglichen LC-MS-Datenexport (in der Dateityp .d) in Tabellenkalkulationsdateien sind für die Datenverarbeitung und die anschließende Sequenzgenerierung von entscheidender Bedeutung (siehe Abschnitt 6.5). Zum Beispiel haben wir die MFE-Einstellung "Spitze mit Höhe" in einem Bereich von 100 bis 1000 getestet und festgestellt, dass wir mit einer Einstellung von 100 2-fach mehr Verbindungen erhalten können als mit der Einstellung 1000. Um zu vermeiden, dass Kontaktplankomponenten fehlen, können wir die MFE-Einstellung während des Sequenzierungs-Workflows anpassen. Diese Einstellung hängt wahrscheinlich von der Massenauflösung des Instruments, der Anzahl der Massenleiterfragmente und der Datenkomplexität ab. Darüber hinaus ist es wichtig, den Schwerpunktdatensatz und die chromatographische Typeinstellung für kleine Moleküle zu verwenden. Der Qualitätsfaktor kann je nach Datenqualität von 50 % bis 100 % variiert werden.
Das LC-MS-Instrument, das wir in der Studie verwenden, hat eine obere Massenauflösung von ~40K, was die Methode auf die Sequenzierung von RNA mit einer Länge von weniger als 35 Basen beschränkt. Die genaue Leselänge dieser Methode ist jedoch instrumentenabhängig. Fortschrittlichere Geräte mit höherem Auflösungsvermögen können zu einer längeren Leselänge führen. Ebenso muss der Durchsatz, d.h. wie viele RNA-Sequenzen gleichzeitig in einem einzigen LC-MS-Lauf sequenziert werden können, noch erforscht werden, obwohl wir eine Mischung aus RNA-Proben bis zu 12 verschiedenen RNA-Strängen auch ohne Verwendung eines Algorithmus manuell sequenziert haben9. Mit dem aktuellen Workflow sind ~100 pmol kurze RNA (<35 nt) für jeden LC-MS-Lauf erforderlich. Die Beladungsmenge nimmt zu, wenn zusätzliche Experimente erforderlich sind: Für die Differenzierung isomerer Nukleotidmodifikationen sind typischerweise bis zu 400 pmol RNA erforderlich. Für die Sequenzierung spezifischer tRNA wie tRNAPhe können ~1000 pmol Probe für die Sequenzierung und Modifikationsanalyse benötigt werden. Wir gehen jedoch davon aus, dass die erforderlichen Probenbeladungsmengen bei LC-MS-Instrumenten mit höherer Empfindlichkeit verringert werden. Mit Verbesserungen bei der Effizienz der Probenmarkierung, dem Sequenzierungsalgorithmus sowie der Empfindlichkeit und Auflösung des Geräts erwarten wir, dass unsere Methode auf ein breiteres Spektrum von RNA-Proben anwendbar sein wird, insbesondere auf solche mit verschiedenen RNA-Modifikationen.
Die Autoren haben ein vorläufiges Patent angemeldet, das sich auf die in diesem Manuskript besprochene Technologie bezieht.
Die Autoren danken für den R21-Zuschuss der National Institutes of Health (1R21HG009576) an S. Z. und W. L. und den Institutional Support for Research and Creativity des New York Institute of Technology (NYIT) für S. Z., die diese Arbeit unterstützt haben. Die Autoren danken dem Doktoranden Xuanting Wang (Columbia University) für die Unterstützung bei der Figurenerstellung und danken Prof. Michael Hadjiargyrou (NYIT), Prof. Jingyue Ju (Columbia University), Drs. James Russo, Shiv Kumar, Xiaoxu Li, Steffen Jockusch und anderen Mitgliedern des Ju-Labors (Columbia University), Dr. Yongdong Wang (Cerno Bioscience), Meina Aziz (NYIT) und Wenhao Ni (NYIT) für hilfreiche Diskussionen und Vorschläge für unser Manuskript.
Name | Company | Catalog Number | Comments |
5' DNA Adenylation kit | New England Biolabs | E2610S | 50uM concentration |
6550 Q-TOF mass spectrometer | Agilent Technologies | 5991-2116EN | Coupled to a 1290 Infinity LC system |
A(5´)pp(5´)Cp-TEG-biotin-3´ | ChemGenes | 91718 | HPLC purified |
ATPγS | Sigma-Aldrich | 11162306001 | Lithium salt |
Bicine | Sigma-Aldrich | B8660 | BioXtra, ≥99% (titration) |
Biotin maleimide | Vector Laboratories | SP-1501 | Long arm |
C18 column | Waters | 186003532 | 50 mm × 2.1 mm Xbridge C18 column with a particle size of 1.7 μm |
Centrifugal Vacuum Concentrator | Labconco | Refrig 115v/60hz 7310022 | Labconco CentriVap |
ChemBioDraw | PerkinElmer | ChemDraw Prime | Generate a chemical structure and property data of structures & fragments |
CMC (N-cyclohexyl-N?-(2-morpholinoethyl)-carbodiimide metho-p-toluenesulfonate) | Sigma-Aldrich | 2491-17-0 | 95% Purifiy |
Cyanine3 maleimide (Cy3) | Lumiprobe | 11080 | Water insoluble |
DEPC-treated water | Thermo Fisher Scientific | AM9906 | Autoclaved, certified nuclease-free |
Diisopropylamine (DIPA) | Thermo Fisher Scientific | 108-18-9 | 99% Alfa Aesar |
DMSO | Sigma-Aldrich | 276855 | Anhydrous dimethyl sulfoxide, 99.9% |
EDTA | Sigma-Aldrich | E6758 | Anhydrous, crystalline, BioReagent, suitable for cell culture |
Formic acid | Merck | 64-18-6 | 98-100%, ACS reag, Ph Eur |
Hexafluoro-2-propanol (HFIP) | Thermo Fisher Scientific | 920-66-1 | 99% Acros Organics |
LC-MS sample vials | Thermo Fisher Scientific | C4000-11 | Plastic screw thread vials |
LC-MS vial caps | Thermo Fisher Scientific | C5000-54A | Autosampler vial screw thread caps |
Na2CO3 buffer | Sigma-Aldrich | 88975 | BioUltra, >0.1 M Na2CO3, >0.2 M NaHCO3 |
Oligo Clean & Concentrator | Zymo Research | D4060 | Spin column |
OriginLab | OriginLab | OriginPro | Data analysis and graphing software |
pCp-biotin | TriLink BioTechnologies | NU-1706-BIO | 20 ul (1 mM) |
RNA #1--#6 | Integrated DNA Technologies | Custom RNA oligos | 19nt-21nt single-stranded RNAs, used without further purification |
Rocking platform shaker | VWR | Orbital Shaker Standard 1000 | Speed Range 40 to 300 rpm |
Streptavidin magnetic beads | Thermo Fisher Scientific | 88816 | Binding approx. 55ug biotinylated rabbit lgG per mg of beads |
Sulfonated Cyanine3 maleimide | Lumiprobe | 11380 | Water soluble |
T4 DNA ligase 1 | New England Biolabs | M0202S | 400 units/uL |
T4 polynucleotide kinase | Sigma-Aldrich | T4PNK-RO | From phage T4 am N81 pse T1 infected Escherichia coli BB |
Tris-HCl buffer | Sigma-Aldrich | T6455 | Tris-HCl Buffer, pH 10, 10×, Antigen Retriever |
Urea | Sigma-Aldrich | 81871 | Urea for synthesis. CAS No. 57-13-6, EC Number 200-315-5. |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten