导语
长链非编码RNA(lncRNA)和环状RNA(circRNA)是两类重要的非编码RNA(ncRNA),在细胞内有着重要的基因调控和编码微肽蛋白(Micropeptide)的功能,因此它们是维持细胞正常生理过程和疾病发生发展的重要因素,随着高通量测序技术的发展,产生了海量的ncRNA测序数据(尤其是在癌症研究中)。然而这些有价值的数据却分散在海量的文献中,并没有进行有效的整合。因此越来越多的生信数据科学家构建了各种专有的数据库,帮助更多的科研人员深入研究非编码RNA的作用。
2024年1月NAR(Nucleic Acids Research、核酸研究(IF 14.9))数据库特刊发表了多篇非编码RNA相关的数据库文献。其中LncSEA 2.0和EVLncRNA V3.0分别针对人和其他物种的lncRNA进行研究;LncRNADisease v3.0和ncRNADrug主要是针对与疾病和癌症相关的lncRNA和circRNA进行疾病关联和汇总;circAtlas 3.0和circRNADisease v2.0主要针对不同物种不同疾病条件下的circRNA进行研究。下面我们将重点介绍这6个lncRNA和circRNA数据库。
LncSEA2.0
LncSEA 2.0是南华大学心血管疾病多组学与人工智能湖南省重点实验室开发。LncSEA 2.0采用了先进的snakemake框架,以标准化对大规模公共lncRNA相关数据进行处理,此次2.0版本共收集了40万个参考lncRNA数据集,覆盖20万个lncRNA,囊括了33个大类(包括突变、癌症免疫学、肿瘤转移、ceRNA、染色质相互作用、RNA-RNA相互作用、RNA-蛋白质相互作用、RNA染色质修饰、RNA化合物、组织中的空间表达、癌症功能状态、疾病类型、m6 A修饰、实验验证的功能、细胞标志物、保守性、eQTL、外来体、炎症、SmORF、甲基化模式、基因破坏、亚细胞定位、存活、药物、转录辅因子、剪接事件、染色质调节剂)和86个子类;LncSEA 2.0不仅从下游调控数据源中筛选lncRNA集,还通过整合来自数百种人类细胞类型的ChIP-seq、DNase-seq、ATAC-seq和H3 K27 ac ChIP-seq数据,计算由上游转录调控因子和DNA调控元件调控的大量lncRNA集。
以往的lncRNA数据库的注释信息和调控信息相对分散,缺乏完整的lncRNA列表和功能分类;2020年LncSEA 1.0提供多种类型的lncRNA集合,并支持lncRNA注释和富集分析;2024年,LncSEA 2.0提供了更全面的lncRNA参考资源,增强了数据处理工作流程和网站功能,并引入了富集分析方法。
LncSEA 2.0主页
EVLncRNA V3.0
EVLncRNA V3.0是由德州大学生物物理研究所王继华实验室开发;LncRNA已成为多种生物过程和疾病的关键调节因子,EVLncRNA数据库是第一个也对来自不同物种的所有实验验证的功能性lncRNA进行汇总的数据库,2024年一月更新的版本EVLncRNA V3.0现在包括162个物种的6195个EVlncRNA,比以前的版本增加了154%,;数据库也包含了额外的信息,包括功能分类、详细的相互作用途径、同源lncRNA、lncRNA位置和类器官相关的lncRNA。
EVLncRNA V3.0 主页
LncRNADisease v3.0
LncRNADisease v3.0是由北京大学基础医学院崔春梅实验室开发。
2012年,LncRNADisease数据库发布,囊括了10000个实验支持的lncRNA和疾病关联;近年来,对lncRNA和circRNA的研究课题数据与日俱增,因此有必要整合新的lncRNA/circRNA和疾病的关联条目。LncRNADisease v3.0版本更全面的整理了lncRNA(包括circRNA)与疾病的相关性,本次收录25440个实验支持的lncRNA/circRNA-疾病关联条目,涵盖6066个lncRNA、10732个circRNA和566种疾病;还提供了与潜在临床应用的关联。
系统整合lncRNA与疾病的关联对于进一步理解其潜在的分子机制以及探索基于lncRNA的生物标志物和治疗方法具有重要意义,长链非编码RNA相关疾病(LncRNADisease)数据库就是为上述目的而设计的。与LncRNADisease v2.0相比,circRNA的数量和疾病关联显著增加了10倍。通过不同的计算方法可以发现其他未知的lncRNA-疾病关联,并筛选潜在的lncRNA靶点。
LncRNADisease v3.0主页
ncRNADrug
ncRNADrug是由福建医科大学附属第一医院肿瘤精准医学福建省重点实验室开发;ncRNADrug收集了29551个实验验证的ncRNA,涉及涉及9195个与266种药物耐药性相关的ncRNA(2248个miRNAs,4145个lncRNA和2802个circRNA);以及32 969个条目,涉及965种药物靶向的10 480个ncRNA(4338个miRNAs,6087个lncRNA和55个circRNA);此外,ncRNADrug还包含通过差异表达分析从ncRNA表达谱预测的ncRNA和药物之间的关联。
在过去的几年中,已经开发了几个数据库来帮助研究人员探索ncRNA和药物之间的关联,但这些数据库中未对实验支持的耐药相关ncRNA和药物之间的关联以及药物靶向的ncRNA进行整合;ncRNADrug除了收集大量实验支持的ncRNA和药物之间的关联外,小部件还提供了治疗耐药癌症的潜在药物组合,这些数据及功能不仅提供了机理上的见解,还为未来的药物开发提供了有价值的实验证据。
ncRNADrug主页
circAtlas 3.0
circAtlas 3.0是由中国科学院北京生命科学研究院张金阳实验室开发;circAtlas 3.0数据库,其中包含2674个circRNA测序数据集的丰富集合,数据集囊括了10种脊椎动物物种的33种不同组织中的circRNA景观。
数据的3.0版本相对于2.0版本,circRNA数量从1 007 087上升到3 179 560,其中2 527 528个被重建为同源全长CircRNA。circAtlas 3.0还采用circRNA的标准化命名方案,提供circRNA的host gene和全长环状外显子的信息,以及纳入临床癌症样本信息,以探索circRNA在癌症背景下的生物学功能。
circAtlas 3.0提供了超过300万个脊椎动物circRNA的最大集合,其全长序列和全面的功能分析,包括直链circRNA,二级结构,miRNA结合位点,RBP结合位点和IRES/ORF预测。此外,circAtlas 3.0还纳入了circRNA的标准化命名方案,这将弥合因各种circRNA资源之间命名实践不一致而产生的差距。采用了circRNA标准化命名方案,circRNA首先被分为不同的类型,然后根据其环状外显子的顺序命名,每个circRNA的最终统一id由circRNA类型、host gene name、每个环状外显子的注释和附加的数字ID组成。circAtlas 3.0可以在各种物种和组织以及临床样本中找到circRNA,以提高研究人员对circRNA在进化和疾病研究中的效率。
circAtlas 3.0主页
circRNADisease v2.0
circRNADisease v2.0由首都医科大学北京神经外科研究所江涛实验室开发;circRNADisease v2.0提供经过实验验证的circRNA与各种疾病之间的关系,circRNADisease v2.0记录了12个物种的6998个经过实验验证的circRNA和疾病关联条目,包括人、小鼠、公猪、秀丽隐杆线虫、鸡、牛、山羊、猪、大鼠、绵羊、病毒、日本鲷;与上一个版本相比,circRNA的数量(从330种增加到4246种)、疾病类型(从48种增加到330种)和覆盖物种(从仅人类到12种)的大幅增加;数据库还引入了新的功能:收集有关circRNA相关因子(基因、蛋白和miRNA)、分子机制、生物学功能(增殖,迁移,侵袭等)、肿瘤/细胞系/患者来源的异种移植物的详细信息以及疾病预后证据的信息。数据库在30种TCGA癌症类型中鉴定了与circRNA有关的7 159 865 种突变。
circRNADisease 2.0 具有五个显著特点:(i)通过增加更多的circRNA-disease关系,将之前的版本显著扩展为新版本;(ii)我们收集了全面的circRNA疾病信息,特别是circRNA在疾病中的生物学功能、circRNA参与疾病的分子机制等;(iii)我们提供基于circRNA表达的患者预后证据;(iv)我们不仅收集了人类的circRNA-疾病关系,还收集了其他十个物种(如小鼠、大鼠等)的circRNA-疾病关系。(v)我们开发了“Circ2Mut”模块来探索30种人类癌症中circRNA位点的突变。“Circ2Mut”是一种创新模块,专门设计用于促进 circRNA 位点内发生的突变的检索。其主要目的是识别直接影响circRNA功能的遗传变异;通过“Circ2Mut”,研究人员可以深入研究circRNA位点内发生的突变的复杂细节,从而全面了解各种疾病背景下异常circRNA的生物发生和表达。通过提供这一高级功能,“Circ2Mut”模块旨在使研究人员能够发现突变在circRNA动力学中的作用及其在疾病机制中的潜在影响的新见解。
circRNADisease v2.0主页
元莘生物有专业的非编码RNA高通量实验和生信分析平台、数据库构建IT团队,能够满足老师数据产出、挖掘和数据库整合的个性化需求。有感兴趣的老师,欢迎垂询我们的销售人员。
参考文献
Guorui Zhang, Chao Song, Shifan Fan, Mingxue Yin, Xinyue Wang, Yuexin Zhang, Xuemei Huang, Ye Li, Desi Shang, Chunquan Li, Qiuyu Wang, LncSEA 2.0: an updated platform for long non-coding RNA related sets and enrichment analysis, Nucleic Acids Research, Volume 52, Issue D1, 5 January 2024, Pages D919–D928, https://doi.org/10.1093/nar/gkad1008IF: 14.9 Q1
Xiao Lin, Yingyu Lu, Chenhao Zhang, Qinghua Cui, Yi-Da Tang, Xiangwen Ji, Chunmei Cui, LncRNADisease v3.0: an updated database of long non-coding RNA-associated diseases, Nucleic Acids Research, Volume 52, Issue D1, 5 January 2024, Pages D1365–D1369, https://doi.org/10.1093/nar/gkad828IF: 14.9 Q1
Bailing Zhou, Baohua Ji, Congcong Shen, Xia Zhang, Xue Yu, Pingping Huang, Ru Yu, Hongmei Zhang, Xianghua Dou, Qingshuai Chen, Qiangcheng Zeng, Xiaoxin Wang, Zanxia Cao, Guodong Hu, Shicai Xu, Huiying Zhao, Yuedong Yang, Yaoqi Zhou, Jihua Wang, EVLncRNAs 3.0: an updated comprehensive database for manually curated functional long non-coding RNAs validated by low-throughput experiments, Nucleic Acids Research, Volume 52, Issue D1, 5 January 2024, Pages D98–D106, https://doi.org/10.1093/nar/gkad1057IF: 14.9 Q1
Xinyu Cao, Xu Zhou, Fei Hou, Yu-e Huang, Mengqin Yuan, Min Long, Sina Chen, Wanyue Lei, Jicun Zhu, Jiahao Chen, Tao Zhang, An-Yuan Guo, Wei Jiang, ncRNADrug: a database for validated and predicted ncRNAs associated with drug resistance and targeted by drugs, Nucleic Acids Research, Volume 52, Issue D1, 5 January 2024, Pages D1393–D1399, https://doi.org/10.1093/nar/gkad1042IF: 14.9 Q1
Wanying Wu, Fangqing Zhao, Jinyang Zhang, circAtlas 3.0: a gateway to 3 million curated vertebrate circular RNAs based on a standardized nomenclature scheme, Nucleic Acids Research, Volume 52, Issue D1, 5 January 2024, Pages D52–D60, https://doi.org/10.1093/nar/gkad770IF: 14.9 Q1
Zhi-Yan Sun, Chang-Lin Yang, Li-Jie Huang, Zong-Chao Mo, Ke-Nan Zhang, Wen-Hua Fan, Kuan-Yu Wang, Fan Wu, Ji-Guang Wang, Fan-Lin Meng, Zheng Zhao, Tao Jiang, circRNADisease v2.0: an updated resource for high-quality experimentally supported circRNA-disease associations, Nucleic Acids Research, Volume 52, Issue D1, 5 January 2024, Pages D1193–D1200, https://doi.org/10.1093/nar/gkad949IF: 14.9 Q1