前言
lncRNA产品系列上篇介绍了lncRNA的富集和高通量测序,重点阐述了如何针对lncRNA的结构特征,采用合适的富集方法尽可能多地富集到lncRNA,并在其后的实验操作中构建lncRNA测序文库并进行高通量测序。
获得测序数据后一般会经过初步质控获得clean data,测序reads并跟基因组进行比对获得初步的注释信息,本篇重点对比对注释到的lncRNA进行进一步的特征鉴定以及靶基因预测的流程概述。
LncRNA的鉴定ORIGINGENE
LncRNA具有一定的结构特征,分析过程中会根据这些结构特征以及reads的覆盖情况进行lncRNA的鉴定
1. Reads覆盖情况:计算每条转录本的reads覆盖度,筛去所有样本中均小于5的转录本。
2. 转录本长度:筛选出长度较长的转录本,一般lncRNA长度大于200nt,而且外显子个数大于2个;
3. 同源物种注释:利用gffcompare同该物种注释文件进行比较,筛除该物种中已知的mRNA及其他非编码 RNA(rRNA,tRNA,snoRNA,snRNA等);
4. 编码能力:利用CAPT、CNCI等评估转录本的编码潜能,排除具有明显编码潜能的转录本。
5. 非编码RNA家族:适用PhyloCSF等比较转录本与已知非编码RNA家族的保守性,验证其为lncRNA的可能性。
(1)LncRNA的编码能力预测筛选
编码潜能的有无是判定转录本是否为lncRNA的关键条件,通过上述流程筛选后的初步判定为lncRNA之后,需要综合多种编码潜能分析软件进行筛选,主要有:CNCI分析、CPC分析、PFAM蛋白结构域分析 ,CPAT分析(仅限动物)。几种分析方法均判别为non-coding的转录本为最终的novel lncRNA数据集。
将以上几种编码潜能预测方法识别出的non-coding转录本进行统计,以维恩图方式展示各个方法的共有和特有数据,取预测结果的交集为后续的lncRNA分析数据集。
靶基因预测ORIGINGENE
lncRNA不编码蛋白质,主要通过作为蛋白质编码基因表达的重要顺式(Cis)和反式(Trans)调节剂发挥作用,一般会对差异lncRNA进行cis和trans靶标分析,通过靶基因间接预测其功能。
(1)Cis作用靶基因预测
分析流程利用基因组注释和基因组浏览器鉴定lncRNA的可能的靶基因,cis作用一般是指lncRNA上下游10kb(100kb)范围内的基因。一般在启动子区域同向转录的靶基因一般是促进表达作用,反向为抑制。而在3’-UTR区域时,部分情况下反向也为促进表达。
(2)Trans作用靶基因预测
Trans靶基因预测原理为,lncRNA的功能不依赖于和编码基因的位置关系,而是与共表达的基 因相关。当样本数大于等于6个时,根据lncRNA同mRNA的表达量相关性系数进行筛选(相关系 数corr >= 0.9)。
功能注释和富集分析ORIGINGENE
Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。
KEGG是有关Pathway的主要公共数据库。在生物体内,不同基因相互协调行使其生物学,基于Pathway的分析有助于更进一步了解基因的生物学功能。
将差异lncRNA的靶基因进行功能富集分析,在注释上述两个数据库的基础上,应用超几何检验,找出与整个基因组背景相比,在预测到的靶基因中显著性富集的KEGG pathway/go term,通过显著性富集结果确定差异lncRNA的靶向基因主要参与的生物学功能和代谢途径。
参考文献ORIGINGENE
Geisler, Sarah, and Jeff Coller. “RNA in unexpected places: long non-coding RNA functions in diverse cellular contexts.” Nature reviews. Molecular cell biology vol. 14,11 (2013): 699-712. doi:10.1038/nrm3679
Mattick, John S et al. “Long non-coding RNAs: definitions, functions, challenges and recommendations.” Nature reviews. Molecular cell biology vol. 24,6 (2023): 430-447. doi:10.1038/s41580-022-00566-8
Ferrer, Jorge, and Nadya Dimitrova. “Transcription regulation by long non-coding RNAs: mechanisms and disease relevance.” Nature reviews. Molecular cell biology, 10.1038/s41580-023-00694-9. 19 Jan. 2024, doi:10.1038/s41580-023-00694-9