Method Article
ここで提出されたプロトコルは、宿主と病原体の相互作用を研究するRNAシーケンシングトランスクリプトームデータからcircRNAを予測し、機能的に特徴付けるために必要な完全な インシリコ パイプラインを説明しています。
環状RNA(circRNA)は、バックスプライシング によって 形成されるノンコーディングRNAの一種です。これらのcircRNAは、主に様々な生物学的プロセスの調節因子としての役割について研究されています。特に、病原体(インフルエンザやコロナウイルスなど)に感染すると宿主のcircRNAが差次的に発現(DE)できることが新たな証拠で示されており、宿主の自然免疫応答の調節におけるcircRNAの役割が示唆されています。しかし、病原性感染におけるcircRNAの役割に関する研究は、RNAシーケンシング(RNA-seq)データからDE circRNAを同定するために必要なバイオインフォマティクス解析を実行するために必要な知識とスキルによって制限されています。バイオインフォマティクスの予測とcircRNAの同定は、検証、および費用と時間のかかるウェットラボ技術を使用した機能研究の前に重要です。この問題を解決するために、RNA-seqデータを使用したcircRNAの インシリコ 予測と特性評価の段階的なプロトコルが本稿で提供されています。プロトコルは4つのステップに分けることができます:1)CIRIquantパイプライン を介した DE循環RNAの予測と定量。2)circBase を介した アノテーションとDEサーキットRNAの特性評価。3)Circrパイプラインを介したCircRNA-miRNA相互作用予測。4)遺伝子オントロジー(GO)および京都遺伝子ゲノム百科事典(KEGG)を用いたcircRNA親遺伝子の機能強化解析。このパイプラインは、宿主と病原体の相互作用におけるcircRNAの役割をさらに解明するための将来のin vitro および in vivo 研究を推進するのに役立ちます。
宿主と病原体の相互作用は、病原体と宿主生物の間の複雑な相互作用を表し、宿主の自然免疫応答を引き起こし、最終的には侵入病原体の除去をもたらします1,2。病原性感染の間、多数の宿主免疫遺伝子が病原体の複製および放出を阻害するように調節される。例えば、病原性感染時に調節される一般的なインターフェロン刺激遺伝子(ISG)には、ADAR1、IFIT1、IFIT2、IFIT3、ISG20、RIG-I、およびOASL 3,4が含まれる。タンパク質をコードする遺伝子に加えて、長鎖ノンコーディングRNA(lncRNA)、マイクロRNA(miRNA)、環状RNA(circRNA)などのノンコーディングRNAも役割を果たし、病原性感染中に同時に制御されることも報告されています5,6,7。主にタンパク質を機能分子としてコードするタンパク質コード遺伝子とは対照的に、ノンコーディングRNA(ncRNA)は転写レベルおよび転写後レベルで遺伝子の調節因子として機能することが知られています。しかし、宿主の免疫遺伝子の制御にノンコーディングRNA、特にcircRNAが関与する研究は、タンパク質をコードする遺伝子と比較して十分に報告されていません。
CircRNAは、バックスプライシング8と呼ばれる非標準的なスプライシングプロセスによって生成される共有結合的に閉じた連続ループ構造によって広く特徴付けられます。バックスプライシングのプロセスは、同族の直鎖RNAのスプライシングプロセスとは異なり、下流のドナー部位を上流のアクセプター部位にライゲーションし、円形の構造を形成します。現在、circRNAの生合成のための3つの異なるバックスプライシングメカニズムが提案されている。これらは、RNA結合タンパク質(RBP)を介した環状化9,10、イントロン対駆動環状化11、およびラリアット駆動環状化12,13,14である。circRNAが円形構造でエンドツーエンドで連結されていることを考えると、それらは正常なエキソヌクレアーゼ消化に対して自然に耐性がある傾向があり、したがって、それらの線形対応物よりも安定であると考えられる15。circRNAによって示される別の共通の特徴は、宿主16における細胞または組織タイプ特異的発現を含む。
その独特な構造と細胞または組織特異的な発現が示すように、circRNAは細胞内で重要な生物学的機能を果たすことが発見されています。今日まで、circRNAの顕著な機能の1つは、マイクロRNA(miRNA)スポンジとしての役割です17,18。circRNAのこの調節的役割は、circRNAヌクレオチドとmiRNAのシード領域との相補的結合を介して生じる。このようなcircRNA-miRNA相互作用は、標的mRNA上のmiRNAの正常な調節機能を阻害し、したがって遺伝子の発現を調節する19,20。さらに、circRNAは、RNA結合タンパク質(RBP)と相互作用し、RNAタンパク質複合体を形成することによって遺伝子発現を調節することも知られています21。circRNAはノンコーディングRNAに分類されますが、circRNAがタンパク質翻訳のテンプレートとして作用できるという証拠もあります22,23,24。
最近、circRNAは、特に宿主とウイルスの間の宿主と病原体の相互作用を制御する上で極めて重要な役割を果たすことが実証されています。一般に、宿主のcircRNAは、侵入する病原体を排除するために宿主の免疫応答を調節するのに役立つと考えられています。宿主免疫応答を促進するcircRNAの例は、Guoらによって報告されたcircRNA_0082633である25。このcircRNAは、A549細胞内のI型インターフェロン(IFN)シグナル伝達を増強し、インフルエンザウイルスの複製を抑制するのに役立ちます25。さらに、Quらは、IFN-βのシグナル伝達因子であるCREB結合タンパク質(CREBBP)の発現を調節することによって免疫を促進する、circRNA AIVRと呼ばれるヒトイントロニックcircRNAも報告しました26,27。しかし、感染時に疾患の病態形成を促進することが知られているcircRNAも存在する。例えば、Yuらは最近、宿主細胞オートファジーの阻害を通じてH1N1ウイルス複製を促進する上で、2A遺伝子を含むGATAジンクフィンガードメイン(circGATAD2A)からスプライシングされたcircRNAが果たす役割を報告した28。
circRNAを効果的に研究するために、通常、ゲノムワイドなcircRNA予測アルゴリズムが実装され、その後、機能研究を実施する前に、予測されたcircRNA候補の インシリコ 特性評価が行われます。circRNAを予測および特性評価するためのこのようなバイオインフォマティクスアプローチは、コストが低く、時間効率が高くなります。これは、機能的に研究される候補の数を絞り込むのに役立ち、新しい発見につながる可能性があります。ここでは、宿主と病原体の相互作用中のcircRNAのイン シリコ 同定、特性評価、および機能アノテーションのための詳細なバイオインフォマティクスベースのプロトコルを提供します。このプロトコルには、RNAシーケンシングデータセットからのcircRNAの同定と定量、circBase を介した アノテーション、およびcircRNAの種類、重複する遺伝子の数、および予測されるcircRNA-miRNA相互作用の観点からのcircRNA候補の特性評価が含まれます。この研究はまた、遺伝子オントロジー(GO)および京都遺伝子とゲノムの百科事典(KEGG)エンリッチメント分析を通じて、circRNA親遺伝子の機能アノテーションを提供します。
このプロトコルでは、インフルエンザAウイルスに感染したヒトマクロファージ細胞から調製した匿名化されたリボソームRNA(rRNA)枯渇RNA-seqライブラリデータセットをダウンロードし、遺伝子発現オムニバス(GEO)データベースから使用しました。circRNAの予測から機能特性評価までのバイオインフォマティクスパイプライン全体を 図1にまとめます。パイプラインの各部分については、以下のセクションで詳しく説明します。
1. データ分析前の準備・ダウンロード・セットアップ
注:この調査で使用されたすべてのソフトウェアパッケージは無料でオープンソースです。
2. CIRIquantを用いたcircRNAの予測と発現差解析
注:差分発現解析のインストールと実行に関するより詳細なマニュアルは、CIRIquant論文31のコードの可用性のセクションにあります。補足データには、このプロトコルで使用される基本的なコマンドの一部も含まれています。
3. 予測されるDE circRNAの特性評価とアノテーション
4. Circrを用いたサークRNA-miRNA相互作用の予測
注:circRNA-miRNA相互作用解析のためのCircrのインストール方法と使用方法に関するより詳細なマニュアルは、https://github.com/bicciatolab/Circr37にあります。
5. ceRNAネットワークの構築
注:Cytoscapeの使用方法に関する詳細なマニュアルは、次の場所にあります:http://manual.cytoscape.org/en/stable/ および https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction
6. 機能エンリッチメント解析
前のセクションで参加したプロトコルは、Linux OS システムに合わせて変更および構成されました。主な理由は、circRNAの分析に関与するほとんどのモジュールライブラリとパッケージは、Linuxプラットフォームでしか動作しないことです。この分析では、インフルエンザAウイルスに感染したヒトマクロファージ細胞から調製された非同定リボソームRNA(rRNA)枯渇RNA-seqライブラリデータセットをGEOデータベース42 からダウンロードし、代表的な結果を生成するために使用した。
CircRNAの予測と定量
この解析では、インフルエンザAウイルスに感染したヒトマクロファージ細胞から調製したリボソームRNA(rRNA)枯渇RNA-seqライブラリデータセットを使用して、circRNA検出と機能解析を実施しました。プロトコルセクションで指定されているように、CIRIquantを使用して、RNA-seqライブラリデータセットを入力として使用して、同定されたcircRNAのDE分析を実行しました。使用される参照ファイルは、最新のヒトゲノムバージョン(hg38)に基づいています。 表 4 に、CIRIquant 分析の最終出力の例を示します。CIRIquant出力からのDE周回RNAの同定とフィルタリングは、単純なRStudioスクリプト(補足ファイル1)を介して実行されました。CircRNAは、偽発見率(FDR)値が<0.05および対数フォールド変化(LogFC)>|2|の場合にのみDEとして分類されます。 表5 は、検出されたcircRNAおよびDEのcircRNAの総数を示す。合計35,846個のcircRNAが検出され、そのうち306個がDEでした。この出力で検出されたDE circRNAは完全にアップレギュレーションされ(LogFC > 2)、ダウンレギュレーションされるものはありません(LogFC < 2)。
DE circRNAのアノテーションとキャラクタリゼーション
DE周回RNAのアノテーション状態
同定されたDEのcircRNAは、確立されたcircRNAデータベースcircBaseとクロスチェックされました。ただし、circBaseに寄託されたcircRNA座標は以前のヒトゲノムバージョン(hg19)に基づいているため、この研究でクロスチェックするには、circBaseからのcircRNA座標を現在のヒトゲノムバージョン(hg38)に変換する必要があります。さらに、開始座標は、CIRIquant の 1 から始まる出力から 0 から始まるものに変換する必要があります。hg38バージョン変換されたcircRNA座標は、Github(https://github.com/bicciatolab/Circr)37のドライブフォルダで提供されています。次に、Rstudioスクリプト(補足ファイル1)を使用して、新しいデータフレーム列にcircRNAの注釈ステータスを割り当てました。 表6 に、アノテーションステータスのcircRNAの例を示す。
DEサーキットRNAのキャラクタリゼーション
この部分は、RStudio ソフトウェアの R スクリプトを使用して完全に実行されました。R スクリプトは分析プロセスを容易にし、基本的な知識のみが必要です。
サークRNAの種類
このステップでは、DE circRNAは、ゲノム位置に基づいて、それらのcircRNAタイプ(アンチセンス、エキソニック、遺伝子間、およびイントロニック)によって特徴付けられました。以下の 表7 は、同定されたDE circRNAに含まれる異なるcircRNAタイプのパーセンテージ内訳を示しています。合計306個のDE circRNAのうち、263個のcircRNA(85.95%)がエキソン型であるが同定された。イントロニックcircRNAは、17個のDEサーキットRNAで構成される2番目に同定されたcircRNAタイプとして登場し、DEサーキットRNA全体の最大5.56%を占めています。これに続いて、遺伝子間ractRNA(16個のDE回回RNA~5.23%)とアンチセンス系circRNA(10個のDE回回RNA~3.27%)が続きます。
circRNAあたりの遺伝子数
CIRIquantによって同定されたCircRNAは、多くの遺伝子にわたって重複する可能性があります。今日まで、ほとんどの研究は1つの遺伝子にまたがるcircRNAに焦点を当てています。したがって、このプロトコルでは、複数の遺伝子にまたがるcircRNA候補はダウンストリーム分析から除外されます。以下の 表8 は、1つ以上の遺伝子にまたがるDE circRNAの数および割合を記載する。この表では、遺伝子間racRNA(16 DE circRNA)は宿主遺伝子と重複しないため除外されていますが、残りのcircRNAタイプ(290 DE circRNA)はこの分析にかけられています。290個のDE circRNAのうち、DE circRNAの大部分(261個のcircRNA~90%)は1つの遺伝子のみにまたがっていますが、残りの29個のcircRNA(~10%)は複数の遺伝子にまたがっています。
ceRNAネットワークの構築
ceRNAネットワークは通常、予測された後にcircRNA-miRNA相互作用を視覚化するために描画されます。下の 図3 では、代表的な結果として1つのDE circRNAのみが選択された、これがhsa_DE_58 circRNAである。Circrの予測に基づいて、hsa_DE_58は最大9つの異なるmiRNAをスポンジ化することができます。これらの9つのmiRNAは、厳しい基準でフィルタリングした後に同定されます。
機能エンリッチメント解析
サークRNA親遺伝子のGOおよびKEGG解析
下の図4は、GO解析によるDE circRNA親遺伝子の機能的濃縮のバブルプロットを示す。基本的に、GO分析は、研究された条件(この場合はウイルスに感染したサンプル)で濃縮または影響を受ける生物学的プロセス、細胞位置、および分子機能を解明することを目的としています。情報付加は統計的に有意であると見なされ、p値が0.01<場合にのみバブルプロットにプロットされます。図4に示すように、生物学的プロセス(BP)の上位3つの濃縮には、リボ核タンパク質複合体の生合成、ウイルスへの応答、および生物刺激に対する応答の制御が含まれますが、分子機能(MF)では、RNAに作用する触媒活性と一本鎖RNA結合のみが統計的に濃縮されています。一方、レトロマー複合体のみが細胞成分(CC)について統計的に濃縮されている。
図5 は、DE circRNA親遺伝子のKEGG濃縮分析をバブルプロットで示す。GOエンリッチメント分析と同様に、KEGGエンリッチメントは統計的に有意であると見なされ、p値が0.01<場合にのみバブルプロットにプロットされます。この場合、KEGGの用語が強化されたのは、インフルエンザA経路とウイルスライフサイクル(HIV-1)経路の2つだけです。
図1:circRNAの予測と機能特性評価のためのパイプライン。 パイプラインは、必要なソフトウェアパッケージのインストール、circRNA発現の予測と定量化、ceRNAネットワークの構築、circRNA親遺伝子機能強化の実行など、最初から最後までの主要なステップの簡単な概要を示しています。 この図の拡大版を表示するには、ここをクリックしてください。
図2:Circrのフォルダツリー構造。 このフォルダツリー構造は、分析に必要なファイルを検出するために、Circrソフトウェアを実行する前に確立する必要があります。 この図の拡大版を表示するには、ここをクリックしてください。
図3:circRNA-miRNA相互作用からなるceRNAネットワーク。 青い楕円形はcircRNAを表し、オレンジ色の三角形はmiRNAを表します。circRNAとmiRNAをつなぐ実線は、hsa_DE_58 circRNAの潜在的なmiRNAスポンジ機能を示しています。 この図の拡大版を表示するには、ここをクリックしてください。
図4:DE circRNA親遺伝子のGO濃縮分析のバブルプロット。 x軸のGeneRatioは、与えられたGO項に関連付けられた入力リスト内の遺伝子の数を、入力遺伝子の総数で割ったものです。プロットのドットサイズは、指定されたGO項に関連付けられた入力リスト内の遺伝子の数であるカウント値で表されます。ドットのサイズが大きいほど、用語に関連する入力遺伝子の数が多くなります。さらに、プロット内のドットはp値に基づいて色分けされています。p値は、アノテーション項の観測頻度と偶然に予想される頻度を比較することによって計算されます。個々の項は、カットオフ値(p値<0.01)を超えてエンリッチされていると見なされます。青から赤の範囲のp値の色のグラデーションは、項のエンリッチメントが増加していることを示します。 この図の拡大版を表示するには、ここをクリックしてください。
図5:DE circRNA親遺伝子のKEGG濃縮解析。 x軸のGeneRatioは、指定されたKEGG項に関連付けられた入力リスト内の遺伝子の数を、入力遺伝子の総数で割ったものです。プロットのドットサイズは、指定されたKEGG項に関連付けられた入力リスト内の遺伝子の数であるカウント値で表されます。ドットのサイズが大きいほど、用語に関連する入力遺伝子の数が多くなります。さらに、プロット内のドットはp値に基づいて色分けされています。p値は、アノテーション項の観測頻度と偶然に予想される頻度を比較することによって計算されます。個々の項は、カットオフ値(p値<0.01)を超えてエンリッチされていると見なされます。青から赤の範囲のp値の色のグラデーションは、項のエンリッチメントの増加を示します。 この図の拡大版を表示するには、ここをクリックしてください。
サンプル名 | CIRIquant 出力 GTF ファイルへのパス | グルーピング |
コントロール 1 | /path/to/CIRIquant/ctrl1.gtf | C |
コントロール 2 | /path/to/CIRIquant/ctrl2.gtf | C |
感染者 1 | /path/to/CIRIquant/infect1.gtf | T |
感染者2 | /path/to/CIRIquant/infect2.gtf | T |
表 1: CIRIquant の .lst ファイルの準備。 CIRIquant出力からのコントロールサンプルと処理サンプルの宛先パスは、2種類のサンプル間のcircRNAの発現を比較するためにテキストファイルに書き込まれます。
ティッカー | 始める | 終わり | 名前 | . | ストランド |
CHR2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
CHR2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
CHR2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
CHR2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
CHR4 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
表 2: Circr の BED ファイルの例を示します。 BED ファイルを生成するには、circRNA に関連付けられた 6 つのカラム (Chr、開始、終了、名前、遺伝子、および鎖) が必要です。
circRNA_name | 種類 | miRNA_name | 種類 |
DE_circRNA_1 | サーキットRNA | miR-001 | マイクロナ |
DE_circRNA_1 | サーキットRNA | miR-002 | マイクロナ |
DE_circRNA_2 | サーキットRNA | miR-003 | マイクロナ |
DE_circRNA_2 | サーキットRNA | miR-004 | マイクロナ |
表3:サイトスケープ入力ファイル。 テキスト ファイルに書き込むには、4 つの列 (circRNA_name、型、miRNA_name、および型) が必要です。
サークRNA細胞 | ログFC | ログインプレッション | ロイズ船級協会 | p値 | デ | ティッカー |
CHR4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3.00E-42 | 1 | 1.08E-37 |
CHR16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
CHR14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
表 4: CIRIquant の最終出力 (.csv) ファイルの一部。 CIRIquantは、LogFC、100万あたりのログ数(LogCPM)、ロジスティック回帰(LR)、p値、微分式、FDRなどの情報を提供します。
CIRIquant の結果 | |||
トータル | デ | 上 | 下 |
35846 | 306 | 306 | 0 |
表5:同定された総および差次的発現(DE)circRNAの数の要約。 合計35,846個のcircRNAが検出され、そのうち306個がDEのcircRNAです。306 DE circRNAはすべて、対照サンプルと比較した場合、処理されたサンプルでアップレギュレーションされています(ダウンレギュレーションされているものはありません)。
Custom_Name | Annotation_Status |
hsa_DE_22 | 注釈なし |
hsa_DE_2 | 注釈 付き |
hsa_DE_58 | 注釈なし |
hsa_DE_3 | 注釈 付き |
表6:アノテーションステータス付きのカスタムcircRNA名の表。 CircRNAは、既知の寄託されたcircRNA(circBase)のデータベースで照会されます。circRNAがデータベース内に存在する場合、アノテーションされるようにラベル付けされ、circRNAが存在しない場合はアノテーションなしとしてラベル付けされます。
サークRNAタイプ | 周波数 | 百分率 |
アンチセンス | 10 | 3.27% |
エクソン | 263 | 85.95% |
インタージェニック | 16 | 5.23% |
イントロン | 17 | 5.56% |
表7:同定されたcircRNAの種類。 CircRNAはさらに、その配列領域、すなわちエキソニック、イントロニック、アンチセンス、および遺伝子間性に基づいて、異なるタイプのcircRNAに分類することができる。
親遺伝子の数 | 周波数 | 百分率 |
1 | 261 | 90% |
> 1 | 29 | 10% |
表8:異なる数の遺伝子を持つcircRNAの割合。 CircRNAは一般に1つの遺伝子のエクソンからコードされていますが、複数の遺伝子にまたがるcircRNAもCIRIquantによって検出できます。
補足ファイル 1: プロトコルで使用されるスクリプト。このファイルをダウンロードするには、ここをクリックしてください。
このプロトコルの有用性を説明するために、インフルエンザAウイルス感染ヒトマクロファージ細胞由来のRNA−seqを例として使用した。宿主と病原体の相互作用において潜在的なmiRNAスポンジとして機能するCircRNAと、宿主内でのGOおよびKEGGの機能強化を調べました。オンラインで入手できるさまざまなcircRNAツールがありますが、それぞれが互いに相互作用しないスタンドアロンパッケージです。ここでは、circRNAの予測と定量、circRNAの機能強化、circRNA-miRNA相互作用の予測、およびceRNAネットワークの構築に必要なツールをいくつかまとめました。この合理化されたプロトコルは時間を節約し、臨床サンプルに適用して、診断値と予後値を持つcircRNA候補を検出することができます。
基本的には、CIRI2をあらかじめパッケージ化したcircRNA定量ツールであるCIRIquant31を採用し、circRNAの検出とDE解析を実施しました。DE circRNA は、LogFC > |2| のカットオフ値に基づいてフィルタリングされます。FDR < 0.05は、ダウンストリーム分析での潜在的な誤検知を排除するのに役立ちます。アノテーションの状態、circRNAの種類、および遺伝子の数に関するDE circRNAの特性評価は、circRNA候補の分類とさらなるフィルタリングに役立ちます。続いて、circRNA-miRNA予測ツールであるCircr37を使用して、潜在的なmiRNAスポンジ候補を予測します。circRNAの標的となる可能性のあるmiRNAを予測した後、ceRNAネットワークを描画します。最後に、circRNAの親遺伝子に基づいて、Rクラスタプロファイラパッケージ39 は、GOおよびKEGG経路エンリッチメント解析 を介した 機能アノテーションに使用される。GOとKEGGの結果は、circRNAの影響を受ける生物学的メカニズムの解明に役立つ可能性があります。
現在までに、CIRI243、CIRCexplorer2 44、find_circ 45、MapSplice46、UROBORUS 47など、いくつかの異なるcircRNA予測ツールが開発されています。Hansenらが実施した研究では、CIRI2は全体的な性能が高いと報告されています。これは、de novo予測と偽陽性識別の減少の点でうまく機能できる数少ないcircRNA検出ツールの1つです48。したがって、この研究では、circRNAの検出と定量にCIRI2を利用するCIRIquantを使用しました。CIRIquantを使用してバックスプライスジャンクション(BSJ)リードをカウントし、カウントデータを同じ遺伝子座から転写された同族の線形RNAにマッピングされたリードに正規化しました。これにより、サンプル中のcircRNAの定量が可能になります。実験条件全体でのcircRNAの発現差を決定するために、CIRIquantはDE分析のためにedgeR49に一般化線形モデルを実装し、正確な速度比検定を統計的検定として使用して、circRNA接合比比比の差の有意性を決定しました。CIRCexplorer3-CLEAR50などの他のcircRNA定量ツールを使用してcircRNAの発現量を定量することもできますが、このツールは、サンプル中のBSJリードをカウントし、カウントデータを同じサンプルからの同族の直鎖RNAカウントに対して正規化するため、サンプル中のcircRNA定量のみが可能です。サークエクスプローラー3-CLEARは、実験条件間でサーキットRNA発現を比較することはできません。さらに、CIRCexplorer3-CLEARには、定量化された発現レベルをサポートするための統計解析ツールは実装されていません。CIRIquant内に実装されるデフォルトのcircRNA予測ツールはCIRI2であるが、find_circおよびCIRCexplorer2などの他のツールからの予測結果も、定量化およびDE分析31に利用することができる。このプロトコルでは、予測に使用されたcircRNA予測ツール(CIRI2)は1つだけであり、それでも偽陽性のcircRNA候補が得られる可能性があります。偽陽性を減少させるために、分析のために他のcircRNA予測ツールを組み合わせ、異なるcircRNA予測ツール48,51の中から検出された共通のcircRNAを選択することができる。circRNA検出をさらに改善するには、rRNAが枯渇し、RNase Rの前処理を受けたRNAシーケンシングデータセットを使用することが理想的です。
研究の目的に応じて、de novoおよび注釈付きDE circRNAは、circBaseデータベース52に基づいて別々に同定することができる。ただし、複数の遺伝子にまたがるcircRNAは、circRNAの信憑性を判断し、偽陽性を排除するために、UCSCまたはその他のゲノムブラウザーで手動で検査する必要があることがよくあります。それにもかかわらず、融合遺伝子に由来するcircRNAなど、複数の遺伝子にまたがるcircRNAも最近報告されています53,54。
Circrは、3つの異なるmiRNA-mRNA予測アルゴリズム、すなわちターゲットスキャン55、miRanda 56、およびRNAハイブリッド57を組み合わせて、circRNA-miRNA結合部位を予測することによって機能します。さらに、このアルゴリズムには、circRNA-miRNA分析におけるAGOピークと以前に検証された相互作用の情報も組み込まれています。ここでは、より信頼性の高いcircRNA-miRNA予測が得られるように厳しいフィルタリング基準が適用され、偽陽性がさらに減少しました。ただし、このフィルタリングステップの厳密性は、ユーザーの好みに応じて高くまたは低く設定できます。
ClusterProfiler は、さまざまな生物の遺伝子セットに機能的に注釈を付けることができる、十分に文書化された R パッケージです。このプロトコルで言及されている R clusterProfiler パッケージ内の関数 (enrichGO および enrichKEGG ) の他に、過剰表現分析を利用する関数もあります。 clusterProfilerがワークフローに適していない場合は、"AllEnricher"58や"Metascape"59などのWebサイトベースのツールなど、遺伝子のセットに機能的に注釈を付けることができる他のツールやパッケージもあります。最後に、上記のパイプラインは潜在的なcircRNAとその機能アノテーションを予測するのに役立ちますが、確かな証拠を提供するにはウェットラボでの検証が必要になります。
著者は開示するものは何もありません。
著者は、この原稿の批判的なレビューについて、Tan KeEnとCameron Bracken博士に感謝したいと思います。この研究は、基礎研究助成スキーム(FRGS/1/2020/SKK0/UM/02/15)およびマラヤ大学ハイインパクト研究助成金(UM)からの助成金によってサポートされました。C/625/1/HIR/MOE/CHAN/02/07)。
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved