Method Article
本协议的目的是使用RNA测序数据调查候选基因的进化和表达。
蒸馏和报告大型数据集(如全基因组或转录组数据)往往是一项艰巨的任务。分解结果的一种方法是关注一个或多个对生物体和研究具有重要意义的基因家族。在此协议中,我们概述了生物信息学步骤,以生成植物学并量化感兴趣的基因表达。植物遗传树可以深入了解基因在物种内部和物种之间是如何进化的,并揭示正学。这些结果可以使用RNA-seq数据来比较这些基因在不同个体或组织中的表达。分子进化和表达的研究可以揭示物种间基因功能的进化和保存模式。基因家族的特征可以作为未来研究的跳板,并能在新的基因组或转录纸中突出一个重要的基因家族。
测序技术的进步促进了非模型生物基因组和转录组的测序。除了从许多生物体中测序DNA和RNA的可行性增加外,还有大量数据可供公开研究感兴趣的基因。本议定书的目的是提供生物信息学步骤,以研究基因的分子进化和表达,这些基因可能在感兴趣的有机体中发挥重要作用。
研究基因或基因家族的进化可以深入了解生物系统的进化。基因家族的成员通常通过识别保存的图案或同源基因序列来确定。基因家族进化以前是利用来自遥远相关模型生物体1的基因组进行研究的。这种方法的一个局限性是,不清楚这些基因家族是如何在密切相关的物种中进化的,以及不同环境选择性压力的作用。在此协议中,我们包括在密切相关的物种中搜索同源物种。通过在植物水平上生成植物,我们可以注意到基因家族进化的趋势,如保存的基因或特定于血统的复制。在这个水平上,我们也可以调查基因是正石还是对等体。虽然许多同源可能彼此类似,但情况不一定如此。在这些研究中加入植物遗传树对于确定这些同源基因是否是正交者非常重要。在真核生物中,许多矫形器在细胞内保留着类似的功能,哺乳动物蛋白质恢复酵母组织细胞3的功能的能力就证明了这一点。然而,在某些情况下,非正直面基因具有特征功能4。
植物树开始描绘基因和物种之间的关系,但功能不能仅仅根据遗传关系来分配。基因表达研究与功能注释和富集分析相结合,为基因功能提供了强有力的支持。基因表达可以跨个体或组织类型进行量化和比较的案例可以更能说明潜在的功能。以下协议遵循的方法,用于研究在海德拉粗俗7的蛋白基因,但他们可以应用于任何物种和任何基因家族。这些研究的结果为进一步研究非模型生物的基因功能和基因网络奠定了基础。例如,对蛋白的植物学研究,这些蛋白是引发光转移级联的蛋白质,为眼睛和光检测的进化提供了背景。在这种情况下,非模型生物,特别是基础动物物种,如神经元或细胞,可以阐明保护或变化的光转移级联和视觉跨越包12,13,14。同样,确定其他基因家族的植物学、表达和网络将告诉我们适应背后的分子机制。
该协议遵循加州大学欧文分校的动物护理指南。
1. RNA-塞克图书馆准备
2. 访问计算机群集
注:RNA-seq 分析需要操作大型文件,最好在计算机集群(材料表)上完成。
3. 获取RNA-塞克读数
4. 修剪适配器和低质量读数(可选)
5. 获取参考组件
6. 生成 无组 件(第 5 步的替代方案)
7. 地图读取基因组 (7.1) 或 de novo 转录体 (7.2)
8. 识别感兴趣的基因
注意:以下步骤可以与核苷酸或蛋白质FASTA文件一起完成,但工作最好,并且对蛋白质序列更直接。使用蛋白质对蛋白质进行爆炸搜索更有可能在不同物种之间搜索时给出结果。
9. 植物树
10. 使用 TPM 可视化基因表达
上述方法在 图1 中总结,并应用于 海德拉粗俗 组织的数据集。 H. 粗俗 是一种淡水无脊椎动物,属于植物 , 其中也包括珊瑚、水母和海葵。 低俗者 可以通过萌芽无性繁殖,在被分割时可以再生头部和脚部。在这项研究中,我们旨在研究 海德拉7号中蛋白基因的进化和表达。虽然 海德拉 缺乏眼睛,他们表现出光依赖行为32。蛋白酶基因编码在视觉中很重要的蛋白质,以检测不同波长的光,并开始光传递级联。研究这种基因家族在基础物种中的分子进化和表达,可以深入了解动物的眼睛和光检测的进化过程。
我们使用Hydra 2.033参考基因组和公开提供的RNA-seq数据(GEO加入GSE127279)图1生成了一个引导组件。这一步骤大约花了3天时间。虽然在这种情况下,我们没有生成de novo转录机,但三位一体组件可能需要长达 1 周的生成时间,每个库可能需要几个小时才能根据地图页进行读取映射。合并后的海德拉集(约50,000份成绩单)使用 Blast2GO 进行注释,该集件大约需要 1 周图 1。蛋白相关基因的序列被提取到一个快速文件中。从NCBI基因银行也提取了其他物种的蛋白基因序列。我们使用了来自胆小板动物波多科里纳卡内亚,克拉多内玛半径,特里佩迪利亚囊肿,和内马托斯特拉兽医的操作,我们也包括出组姆内米奥皮西莱迪,特里乔普拉克斯阿萨伦斯,德罗索菲拉梅拉诺加斯特和智人。蛋白蛋白基因在MEGA7图2中对齐。通过观察对齐,我们能够识别出海德拉蛋白,这些蛋白缺少结合光敏分子所需的保存的氨基氨基酸。经过目视检查,我们通过模型选择分析确定了最佳模型。我们使用型号 LG + G + F 生成了一棵最大可能性树,引导值为 100图 3。对于149个蛋白基因,树在大约3天内完成。植物学表明,蛋白基因正在通过遗传学中特定的复制和H.Vulgaris7的串联复制而进化。
我们在边缘R中进行了微分表达分析,并观察了蛋白基因的绝对表达。我们假设一个或多个手术将在头部(假设体)上调节,并进行假设与身体柱、萌芽区、脚和触角的对比比较。作为对比的一个例子,假设列和身体列之间有1,774个成绩单的差异表达。我们确定了在多个比较中被调节的基因,并在 Blast2GO 表 1中进行了功能丰富。G蛋白耦合受体活性分组包括蛋白基因。最后,我们通过绘制它们的TPM值图 4,观察了不同组织、萌芽期和再生过程中蛋白基因的绝对表达。利用此处概述的方法,我们确定了2个蛋白基因,这些蛋白基因没有与植物学中的其他蛋白组蛋白组,发现了一种表达比其他蛋白多近200倍的蛋白酶,我们发现了一些与光转移基因共同表达的蛋白酶基因,这些蛋白蛋白基因可用于光检测。
图1:工作流程示意图。用于分析计算机群集数据的程序是蓝色的,品红色是我们在当地计算机上使用的程序,橙色程序是基于网络的程序。(1) 修剪RNA-seq读数使用修剪式 v. 0.35。如果基因组可用,但缺少基因模型,则使用 STAR 诉 2.6.0c 和 StringTie v. 1.3.4d 生成引导组件。(可选见补充材料)(2) 如果没有参考基因组,使用修剪读数使用三一 v 2.8.5 进行 无节制 组装。(3) 要使用参考基因组量化基因表达,地图使用 STAR 读取,使用 RSEM v. 1.3.1 进行量化。使用RSEM提取TPM,并在RSTUDIO中将其可视化。(4) 鲍蒂和RSEM可用于映射和量化映射到三位一体转录组的读数。三位一体脚本可用于生成 TPM 矩阵,以可视化 RStudio 中的计数。(5) 使用基于 Web 的 NCBI 爆炸和命令行 BLAST® 搜索同源序列并使用对等爆炸进行确认。进一步使用 Blast2GO 注释基因。使用 MEGA 来对齐基因,并使用最合适的模型生成植物学树。 请单击此处查看此图的较大版本。
图2:对齐基因示例。快照显示 海德拉 蛋白的一部分使用肌肉对齐。箭头指示视网膜结合保存赖氨酸的位置。 请单击此处查看此图的较大版本。
图3:神经蛋白植物学树。在 MEGA7 中产生的最大可能性树使用从 海德拉粗俗, 波多科里纳卡内亚, 克拉多内马半径, 特里佩迪利亚囊肿, 内马托斯特拉兽医, 姆内米奥皮西莱迪, 特里乔普拉克斯阿达伦斯, 德罗索菲拉梅拉诺加斯特 和 智人. 请单击此处查看此图的较大版本。
图4: 海德拉粗俗中蛋白基因的表达。(A) 在身体柱、萌芽区、足部、下垂体和触角中,每百万分之一 (TPM) 的海德拉低俗 蛋白基因的表达。(B) 在海德拉 萌芽的不同阶段表达蛋白基因。(C) 在再生的不同时间点表达 海德拉 假设体的蛋白基因。 请单击此处查看此图的较大版本。
转到 ID | 去名称 | 去类别 | 罗斯福 |
去:0004930 | G蛋白耦合受体活性 | 分子功能 | 0.0000000000704 |
去:0007186 | G蛋白耦合受体信号通路 | 生物过程 | 0.00000000103 |
去:0016055 | 无信号通路 | 生物过程 | 0.0000358 |
去:0051260 | 蛋白质同质化 | 生物过程 | 0.000376 |
去:0004222 | 金属循环活动 | 分子功能 | 0.000467 |
去:0008076 | 电压门钾通道复合物 | 细胞组件 | 0.000642 |
去:0005249 | 电压门钾通道活动 | 分子功能 | 0.00213495 |
去:0007275 | 多细胞生物发育 | 生物过程 | 0.00565048 |
去:0006813 | 钾离子运输 | 生物过程 | 0.01228182 |
去:0018108 | 肽-酪氨酸磷酸化 | 生物过程 | 0.02679662 |
表1:在假设中调节的基因的功能丰富
补充材料。请点击这里下载这些材料。
本协议的目的是提供使用RNA-seq数据描述基因家族的步骤大纲。这些方法已被证明适用于各种物种和数据集4,34,35。这里建立的管道已经简化,应该很容易,随后是生物信息学的新手。该协议的意义在于,它概述了完成可发布分析的所有步骤和必要程序。协议中的一个关键步骤是正确组装全长成绩单,这来自高质量的基因组或转录组。要获得正确的成绩单,需要高质量的RNA和/或DNA以及下面讨论的良好注释。
对于RNA-seq图书馆的准备,我们包括列表套件,用于海德拉19和蝴蝶18(材料表)的小身体部位。我们注意到,对于低输入RNA,我们使用了修改后的协议方法36。RNA提取方法在多个样本类型中进行了比较,包括酵母细胞17、神经母细胞瘤37、植物38和昆虫幼虫16等。我们建议读者获得一个协议,适用于他们感兴趣的物种,如果有任何存在,或故障排除使用通常商业可用的工具包开始。为了进行适当的基因定量,我们建议使用 DNase 处理 RNA 样本。DNA的存在将影响适当的基因定量。我们还建议使用包含多A尾部选择的cDNA库准备套件来选择成熟的mRNA。虽然 rRNA 耗竭导致更多的读取深度,但使用聚A+选择39的 EXON 覆盖率的百分比远远低于 RNA 的外在覆盖率。最后,在可能的情况下,最好使用配对结束和搁浅40,41。在上面的协议中,使用单端读取时必须修改读取映射命令。
如上所述,重要的是能够识别感兴趣的基因,并区分最近的基因复制,替代拼接,和单体型的测序。在某些情况下,拥有参考基因组可以帮助确定基因和外子相对于对方的位置。需要注意的一件事是,如果转录组是从公共数据库中获取的,质量不高,最好使用三位一体42 生成,并结合感兴趣组织的 RNA-seq 库。同样,如果参考基因组没有良好的基因模型,RNA-seq 库可用于使用 StringTie43生成新的 GTF(参见补充材料)。此外,在基因不完整且无法获得基因组的情况下,基因可以使用同源序列进行手动编辑,然后使用 tblastn 与基因组对齐。BLAST 输出可用于确定实际序列,这可能与使用同源语的校正不同。如果没有匹配,请按原样保留序列。在检查输出时,注意基因组坐标,以确保缺失的外位确实是基因的一部分。
虽然我们专注于我们使用的软件和程序,但由于许多可用的程序可能更好地适用于不同的数据集,因此存在对此协议的修改。例如,我们显示使用蝴蝶结和 RSEM 映射读取到抄本的命令,但三一现在可以选择更快的对齐器,如卡利斯托44和鲑鱼45。同样,我们使用 Blast2GO(现在的 OmicsBox)描述注释,但还有其他的映射工具可以免费和在线找到。一些我们已经尝试过包括:GO FEAT46,蛋鸡映桅杆47,48,和一个非常快速对齐PANNZER249。要使用这些基于 Web 的注释工具,只需上传肽 FASTA 并提交即可。PANNZER 和蛋诺格映点的独立版本也可下载到计算机集群中。另一个修改是,我们使用MEGA和R在当地计算机上,并使用在线NCBI BLAST工具做互惠的BLAST,但所有这些程序都可以在计算机集群上使用下载必要的程序和数据库。同样,只要用户有足够的内存和存储,就可以在当地计算机上使用对齐器卡利斯托和鲑鱼。但是,FASTQ 和 FASTA 文件往往非常大,我们强烈建议使用计算机集群以方便和快速。此外,虽然我们提供指令和链接,从他们的开发人员下载程序,其中许多可以安装从生物康达:https://anaconda.org/bioconda。
在进行生物信息分析时,面临的一个常见问题是外壳脚本失败。这可能是由于各种原因。如果创建了错误文件,则应在排除故障之前检查这些错误文件。出现错误的几个常见原因是打字错误、缺少关键参数以及软件版本之间的兼容性问题。在此协议中,我们包括数据参数,但软件手册可以为单个参数提供更详细的指南。一般来说,最好使用最新的软件版本,并参考该版本对应的手册。
此协议的增强包括进行转录全范围的微分表达分析和功能丰富分析。我们建议 EdgeR50 用于微分表达分析,这是生物导体中可用的一个包。在功能浓缩分析方面,我们使用了 Blast2GO29 和基于 Web 的 DAVID51,52。我们还建议进一步编辑植物学,通过提取它作为一个新的ick文件,并使用基于网络的iTOL53。此外,虽然该协议将研究基因的分子进化和表达模式,但其他实验可用于验证基因或蛋白质的位置和功能。mRNA 表达可以通过 RT-qPCR 或原地混合确认。蛋白质可以通过免疫化学进行本地化。根据物种的不同,淘汰赛实验可用于确认基因功能。此协议可用于各种目标,包括,如上所示,探索一个基因家族通常与光感受在基础物种7。这些方法的另一个应用是识别不同选择性压力下保存路径的变化。例如,这些方法被用来发现视觉瞬态受体潜在通道之间的视觉瞬时受体表达的变化,34号夜间蝴蝶和夜间飞蛾之间。
作者没有什么可透露的。
我们感谢阿德里亚娜·布里斯科、吉尔·史密斯、拉比·穆拉德和艾琳·兰赫尔在将其中一些步骤纳入我们的工作流程方面提供的建议和指导。我们也感谢凯瑟琳·威廉姆斯、伊丽莎白·雷博亚和娜塔莎·皮恰尼对手稿的评论。这项工作部分得到了乔治·休伊特医学研究基金会对A.M.M的支持。
Name | Company | Catalog Number | Comments |
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster* https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |
请求许可使用此 JoVE 文章的文本或图形
请求许可This article has been published
Video Coming Soon
版权所属 © 2025 MyJoVE 公司版权所有,本公司不涉及任何医疗业务和医疗服务。