Method Article
このプロトコルの目的は、RNAシーケンシングデータを用いて候補遺伝子の進化と発現を調べるものです。
全ゲノムやトランスクリプトームデータなどの大規模なデータセットを蒸留して報告することは、しばしば困難な作業です。結果を分解する1つの方法は、生物にとって重要な1つ以上の遺伝子ファミリーに焦点を当て、研究することです。このプロトコルでは、系統を生成し、目的の遺伝子の発現を定量化するためのバイオインフォマティクスステップの概要を説明する。系統樹は、遺伝子が種の内外でどのように進化しているかについての洞察を与えるだけでなく、鳥類学を明らかにすることができます。これらの結果は、RNA-seqデータを用いて、異なる個体または組織におけるこれらの遺伝子の発現を比較するために増強することができる。分子進化と発現の研究は、種間の遺伝子機能の進化と保存のモードを明らかにすることができます。遺伝子ファミリーの特徴付けは、将来の研究のスプリングボードとして機能し、新しいゲノムまたはトランスクリプトーム論文で重要な遺伝子ファミリーを強調することができます。
シーケンシング技術の進歩は、非モデル生物のゲノムおよびトランスクリプトムのシーケンシングを促進してきた。多くの生物からのDNAとRNAのシーケンシングの実現可能性の増加に加えて、関心のある遺伝子を研究するために豊富なデータが一般に公開されています。このプロトコルの目的は、目的の生物に重要な役割を果たす可能性のある遺伝子の分子進化と発現を調査するためのバイオインフォマティクスのステップを提供することです。
遺伝子や遺伝子ファミリーの進化を調査することで、生物学的システムの進化に関する洞察を得ることができます。遺伝子ファミリーのメンバーは、通常、保存されたモチーフまたは相同遺伝子配列を同定することによって決定される。遺伝子ファミリーの進化は、以前は遠縁モデル生物1のゲノムを用いて調べられた。このアプローチの制限は、これらの遺伝子ファミリーが密接に関連する種でどのように進化し、異なる環境選択的圧力の役割が明確でないということです。このプロトコルでは、密接に関連する種のホモログの探索を含む。系統レベルで系統を生成することで、保存された遺伝子や系統特異的な重複などの遺伝子ファミリーの進化の傾向に注意することができます。このレベルでは、遺伝子がオルソログかパラログかを調べることもできます。多くのホモログは互いに同様に機能する可能性が高いが、必ずしも2の場合ではない。これらの研究に系統樹を組み込むことは、これらの相同遺伝子がオルソログであるかどうかを解決するために重要である。真核生物において、多くのオルソログは、哺乳類タンパク質が酵母オルソログ3の機能を回復する能力によって証明されるように、細胞内で同様の機能を保持している。しかし、非オーソリンス遺伝子が特徴付き機能4を行う場合があります。
系統樹は遺伝子と種の関係を引き起じ始めますが、遺伝的関係だけに基づいて機能を割り当てることはできません。遺伝子発現解析と機能性アノテーションと濃縮分析を組み合わせることで、遺伝子機能を強力にサポートします。遺伝子発現を定量化し、個人や組織の種類を比較できるケースは、潜在的な機能をより伝えることができます。以下のプロトコルは、Hydra下流7のオプシン遺伝子の調査に用いられる方法に従うが、それらはあらゆる種およびあらゆる遺伝子ファミリーに適用することができる。このような研究の結果は、非モデル生物における遺伝子機能および遺伝子ネットワークのさらなる調査のための基礎を提供する。一例として、光伝達カスケードを開始するタンパク質であるオプシンの系統の調査は、眼および光検出8、9、10、11の進化にコンテキストを与える。この場合、非モデル生物、特にクニダリアンやクテノフォアなどの基底動物種は、クレード12、13、14にわたる光変調カスケードおよび視力の保全または変化を解明することができる。同様に、他の遺伝子ファミリーの系統、発現、ネットワークを決定することは、適応の根底にある分子メカニズムについて私たちに知らせるでしょう。
このプロトコルは、UCアーバイン動物ケアガイドラインに従います。
1. RNA-セクライブラリ調製
2. コンピュータ クラスタへのアクセス
注: RNA-seq 解析は大きなファイルの操作を必要とし、コンピュータ クラスタ (材料表) で行うのが最善です。
3. RNA-seq 読み取りを取得する
4.トリムアダプタと低品質の読み取り(オプション)
5. 参照アセンブリを取得する
6. デノボ アセンブリを生成する(ステップ5の代替)
7. ゲノム(7.1)または デノボ トランスクリプトーム(7.2)への読み取りをマップする
8. 目的の遺伝子を特定する
注:次の手順は、ヌクレオチドまたはタンパク質FASTAファイルで行うことができますが、最も良く動作し、タンパク質配列でより簡単です。タンパク質からタンパク質へのBLAST検索は、異なる種間を検索する際に結果を与える可能性が高い。
9. 系統樹
10. TPMを用いた遺伝子発現の可視化
上記の方法は 図1 に要約され、 ヒドラ下品 組織のデータセットに適用された。 H. 下垂体 は、サンゴ、クラゲ、イソギンチャクを含むフィラム クニダリア に属する淡水無脊椎動物です。 H.下品は 出芽によって無性を再現することができ、二分すると頭と足を再生することができます。本研究では、 ヒドラ7におけるオプチン遺伝子の進化と発現を調べる。 ヒドラ は目を欠いているが、光依存の行動32を示す。オプシン遺伝子は、光の異なる波長を検出し、光伝達カスケードを開始するために視力において重要なタンパク質をコードします。基底種におけるこの遺伝子ファミリーの分子進化と発現を調べれば、動物の目の進化と光検出の洞察を得ることができます。
Hydra 2.033参照ゲノムと一般に入手可能なRNA-seqデータ(GEOアチープションGSE127279)図1を用いてガイド付きアセンブリを生成した。このステップは約3日かかりました。この場合、デノボトランスクリプトームは生成しませんでしたが、トリニティアセンブリは生成に最大1週間かかる場合があり、各ライブラリはマッパーに応じて読み取りマッピングに数時間かかることがあります。合併したヒドラアセンブリ(約50,000のトランスクリプト)に、約1週間の図1を要したBlast2GOを使用して、アポイントトを作成しました。オプシン関連遺伝子の配列をファスタファイルに抽出した。他の種からのオプシン遺伝子の配列もNCBI GenBankから抽出された。クニダリアン・ポドコリーナ・カルネア、クラドネマ・ラディアタム、トリペデリア・シストフォラ、ネマトステラ・ヴェクテンシスのオプシンを使用し、ムネミオシス・レイディ、トリポプラクス・アデエレンス、ドロソフィラ・メラノガスター 、ホモ・サピエンスも含めました。オプシン遺伝子は、MEGA7図2で整列した。アライメントを見ることで、光感受性分子と結合するために必要な保存リジンアミノ酸が欠けているヒドラオプシンを同定することができた。目視検査の後、モデル選択解析を行うことで最適なモデルを決定しました。LG + G + F のモデルを使用して、ブートストラップ値が 100図 3の最尤ツリーを生成しました。149個のオプシン遺伝子について、木は約3日間で完成した。この系統は、オプチン遺伝子がクニダリアンにおける系統特異的複製によって進化し、H.下垂体7におけるタンデム複製によって進化していることを示唆している。
edgeRでの微分発現解析を行い、オプシン遺伝子の絶対発現を調べた。私たちは、1つ以上のオプシンが頭の中でアップレギュレートされると仮定し(ハイブトーム)、ボディカラム、出芽ゾーン、足、触手に対する仮説の対比を行った。対方向比較の一例として、1,774個の転写物が、ハイポトームとボディカラムの間で差異的に発現した。複数の比較でアップレギュレートされた遺伝子を特定し、Blast2GO 表1で機能的な濃縮を行いました。Gタンパク質結合受容体活性のグループ化には、オプシン遺伝子が含まれていた。最後に、ggplot 図4を用いてTPM値をプロットして、異なる組織におけるオプシン遺伝子の絶対発現を、出芽中および再生中に見た。ここで概説した方法を用いて、系統内の他のオプシンとグループ化していない2つのオプシン遺伝子を同定し、他のオプシンのほぼ200倍に発現したオプシンを発見し、光検出に使用できる光増倍遺伝子と共に発現するいくつかのオプチン遺伝子を発見した。
図 1: ワークフローの概略図コンピュータクラスタ上のデータを分析するために使用されるプログラムは青で、マゼンタはローカルコンピュータで使用したプログラムで、オレンジ色はウェブベースのプログラムです。(1) トリムモマティック v. 0.35 を使用して RNA-seq 読み取り値をトリミングします。ゲノムが利用可能で遺伝子モデルが欠落している場合は、STAR v. 2.6.0c および StringTie v. 1.3.4d を使用してガイド付きアセンブリを生成します。(オプションの補足資料を参照)(2) 参照ゲノムがない場合、トリニティ v 2.8.5 を使用して デノボ アセンブリを作成するには、トリミングされた読み取りを使用します。(3) 参照ゲノムを用いて遺伝子発現を定量化するために、マップはSTARを用いて読み取り、RSEM v. 1.3.1を用いて定量化する。RSEM を使用して TPM を抽出し、RStudio で視覚化します。(4) ボウタイとRSEMを使用して、三位一体のトランスクリプトームにマッピングされた読み取りをマッピングして定量化できます。トリニティ スクリプトを使用して、RStudio でカウントを視覚化する TPM マトリックスを生成できます。(5) ウェブベースの NCBI BLAST とコマンドライン BLAST+ を使用して、相同のシーケンスを検索し、相互BLASTを使用して確認します。Blast2GOを使用してさらに遺伝子にアトラセートする。MEGAを使用して遺伝子を整列させ、最も適したモデルを使用して系統樹を生成する。 この図の大きなバージョンを表示するには、ここをクリックしてください。
図2:整列遺伝子の例スナップショットは、MUSCLEを使用して整列 したヒドラ オプシン遺伝子の一部を示す。矢印は、レチン結合保存リジンの位置を示す。 この図の大きなバージョンを表示するには、ここをクリックしてください。
図3:クニダリアンオプシン系統樹.HYDRA下垂体、ポドコリーナカルネア、クラドネマラジウム、トリペデリアシストホラ、ネマトステラvectensis、ムネミオシス・レイディ、トリコプラクアデレンス、ドロソフィラメラノガスター 、ホモサピエンスのオプシン配列を使用してMEGA7で生成される最も可能性の高い木。この図の大きなバージョンを表示するには、ここをクリックしてください。
図4 ヒ ドラ下垂のオプシン遺伝子の発現(A)体内列、出芽領域、足、仮説および触手における ヒドラ下垂体 オプシン遺伝子の100万分の1(TPM)の転写物における発現。(B) ヒドラ 出芽の異なる段階におけるオプシン遺伝子の発現。(C)異なる時間の再生点における ヒドラ ハイストームのオプシン遺伝子の発現。 この図の大きなバージョンを表示するには、ここをクリックしてください。
GO ID | GO名 | GOカテゴリ | FDR |
行く:0004930 | Gタンパク質共役受容体活性 | 分子機能 | 0.0000000000704 |
行く:0007186 | Gタンパク質共役受容体シグナル伝達経路 | 生物学的プロセス | 0.00000000103 |
行く:0016055 | Wnt シグナル経路 | 生物学的プロセス | 0.0000358 |
行く:0051260 | タンパク質ホモリゴマー化 | 生物学的プロセス | 0.000376 |
行く:0004222 | メタロエンドペプチダーゼ活性 | 分子機能 | 0.000467 |
行く:0008076 | 電圧ゲート付きカリウムチャネル複合体 | 細胞成分 | 0.000642 |
行く:0005249 | 電圧ゲート付きカリウムチャネル活性 | 分子機能 | 0.00213495 |
行く:0007275 | 多細胞生物の開発 | 生物学的プロセス | 0.00565048 |
行く:0006813 | カリウムイオン輸送 | 生物学的プロセス | 0.01228182 |
行く:0018108 | ペプチジル-チロシンリン酸化 | 生物学的プロセス | 0.02679662 |
表1:ハイポトームでアップレギュレートされた遺伝子の機能濃縮
このプロトコルの目的は、RNA-seqデータを用いて遺伝子ファミリーを特徴付けるためのステップの概要を提供することにある。これらの方法は、さまざまな種やデータセット4、34、35に対して機能することが証明されています。ここで確立されたパイプラインは簡素化されており、バイオインフォマティクスの初心者が続くのに十分簡単でなければなりません。プロトコルの重要な点は、公開可能な分析を完了するために、すべての手順と必要なプログラムの概要を示すということです。プロトコルの重要なステップは、適切に完全な長さのトランスクリプトを組み立てることです, これは高品質のゲノムまたはトランスクリプトームから来ています.適切なトランスクリプトを得るためには、高品質のRNAおよび/またはDNAおよび以下で議論する良好な注釈が必要です。
RNA-seqライブラリの準備のために、我々は、ヒドラ19と蝶18の小さな体の部分のために働いたリストキットを含む(材料のテーブル)。我々は、低入力RNAのために、我々は、変更されたプロトコルアプローチ36を使用していることに注意してください。RNA抽出方法は、酵母細胞17、神経芽細胞腫37、植物38、昆虫幼虫16を含む複数のサンプルタイプで比較されてきた。読者は、興味のある種に適したプロトコルを取得するか、一般的に市販されているキットを使用してトラブルシューティングを開始することをお勧めします。適切な遺伝子定量を行うため、RNAサンプルをDNaseで処理することを推奨します。DNAの存在は、適切な遺伝子定量に影響を与えます。また、成熟したmRNAを選択するために、ポリAテールセレクションを含むcDNAライブラリの準備キットを使用することをお勧めします。rRNAの枯渇はより深い読み込みをもたらすが、エキソンカバレッジの割合は、ポリA+選択39を使用してRNAのエキソンカバレッジよりもはるかに低い。最後に、可能な場合は、ペアエンドと立ち往生40、41を使用するのが最善です。上記のプロトコルでは、シングルエンド読み取りを使用する場合、読み取りマッピングコマンドを変更する必要があります。
前述のように、関心のある遺伝子を同定できることと、シーケンシングにおける最近の遺伝子重複、代替スプライシング、ハプロタイプを区別できることが重要です。いくつかの例では、参照ゲノムを持つことは、遺伝子とエキソンが互いに相対的に位置する場所を決定することによって助けることができます。注意すべき点の1つは、写音が公的なデータベースから取得され、高品質でない場合、トリニティ42 を使用して、目的の組織からRNA-seqライブラリを組み合わせて生成するのが最善かもしれないということです。同様に、参照ゲノムに良好な遺伝子モデルがない場合、RNA-seq ライブラリを使用して StringTie43を使用して新しい GTF を生成できます (補足材料を参照)。また、遺伝子が不完全でゲノムにアクセスできる場合には、遺伝子をホモログ配列を使用して手動で編集し、tblastnを使用してゲノムに整列させることができます。BLAST出力を使用して実際のシーケンスを決定することができ、これはホモログを使用して行われる補正とは異なる場合があります。一致しない場合は、シーケンスを元のとおりにしておきます。出力をチェックするときは、欠けているエキソンが実際に遺伝子の一部であることを確認するために、ゲノム座標に注意を払ってください。
私たちは使用したソフトウェアとプログラムに焦点を当てていますが、このプロトコルの変更は、さまざまなデータセットに適した多くのプログラムが利用可能なため存在します。例として、ボウタイとRSEMを使用してトランスクリプトームに読み取りをマッピングするためのコマンドを表示しますが、トリニティは今、kallisto44やサーモン45のようなはるかに高速なアライナーのためのオプションを持っています。同様に、Blast2GO(現在のOmicsBox)を使用して注釈を記述していますが、無料でオンラインで見つけることができる他のマッパーツールがあります。私たちが試したいくつかは:GO FEAT46、エッグノグマッパー47、48、および非常に高速アライナーPANNZER249。これらのウェブベースの注釈ツールを使用するには、ペプチドFASTAをアップロードして提出するだけです。PANNZERとeggNOGマッパーのスタンドアロンバージョンもコンピュータクラスタにダウンロードできます。もう一つの変更は、我々はローカルコンピュータ上でMEGAとRを使用し、相互的なBLASTを行うためにオンラインNCBI BLASTツールを使用したが、これらのプログラムのすべてが必要なプログラムやデータベースをダウンロードすることによって、コンピュータクラスタ上で使用することができるということです。同様に、ユーザーが十分な RAM とストレージを持っている限り、アライナ カリストとサーモンをローカル コンピュータで使用できます。ただし、FASTQ ファイルと FASTA ファイルは非常に大きくなる傾向があり、コンピューター クラスタを使って簡単かつ高速に使用することを強くお勧めします。さらに、開発者からプログラムをダウンロードするための指示やリンクを提供していますが、その多くはbioconda:https://anaconda.org/bioconda からインストールすることができます。
バイオインフォマティクス解析を行う際に直面する一般的な問題は、シェルスクリプトの失敗です。これは、さまざまな理由が考えられます。エラー ファイルが作成された場合は、トラブルシューティングの前にこれらのエラー ファイルを確認する必要があります。エラーの一般的な原因としては、誤字、キー パラメータの不足、ソフトウェア バージョン間の互換性の問題があります。このプロトコルでは、データのパラメータを含めますが、ソフトウェアマニュアルでは個々のパラメータに関するより詳細なガイドラインを提供できます。一般的には、最新バージョンのソフトウェアを使用し、そのバージョンに対応するマニュアルを参照することをお勧めします。
このプロトコルの機能強化には、トランスクリプトーム全体の微分発現解析と機能濃縮解析が含まれます。微分発現解析には、バイオコンダクタで利用可能なパッケージをedgeR50に推奨します。機能拡張分析のために、Blast2GO29とウェブベースのDAVID51、52を使用しています。また、新しいファイルとして抽出し、WebベースのiTOL53を使用して、さらに系統を編集することをお勧めします。さらに、このプロトコルは遺伝子の分子進化と発現パターンを調査する一方で、遺伝子またはタンパク質の位置および機能を検証するために追加の実験を使用することができる。mRNA発現は、RT-qPCRまたはその際のハイブリダイゼーションで確認することができる。タンパク質は免疫細胞化学を用いて局在化することができる。種に応じて、ノックアウト実験を使用して遺伝子機能を確認することができます。このプロトコルは、上に示すように、基底種7におけるフォトレセプションに典型的に関連する遺伝子ファミリーを探索することを含む様々な目的に使用することができる。これらの方法の別のアプリケーションは、異なる選択的圧力下で保存された経路の変化を同定することです。一例として、これらの方法は、日経性蝶と夜行性蛾34との間の視覚過渡性受容体電位チャネルの発現の変動を発見するために用いた。
著者らは開示するものは何もない。
アドリアナ・ブリスコ、ギル・スミス、ラビ・ムラド、アリーン・G・レンゲルに、これらのステップのいくつかをワークフローに組み込む際のアドバイスとガイダンスに感謝します。また、キャサリン・ウィリアムズ、エリザベート・レボア、ナターシャ・ピッチャーニの原稿に対するコメントに感謝しています。この研究の一部は、ジョージ・E・ヒューイット医学研究フェローシップによって支援されました.M.M。
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
このJoVE論文のテキスト又は図を再利用するための許可を申請します
許可を申請This article has been published
Video Coming Soon
Copyright © 2023 MyJoVE Corporation. All rights reserved