前言
高中时,我们曾学过基因表达是通过基因-RNA-蛋白质途径从转录到翻译的过程,而转录组学就是研究基因-RNA过程中的变化。对转录组进行测序,就是分解一块人体组织,测量其中数万个基因的表达。如果有几十个正常样本和几十个疾病样本可供转录组测序,计算机程序就能计算出哪些基因在疾病中的表达高于正常,哪些基因在疾病中的表达高于正常。然后,这些差异表达的基因就可以与疾病的发生发展联系起来,通过对这些基因进行实验,我们就可以研究这些基因究竟是如何参与疾病的发生发展的。
当然,这不仅仅是正常状态和疾病状态的问题,我们还可以比较早期癌症患者和晚期癌症患者的组织,看看哪些基因是不同的,我们可以看看适合放疗的患者和不适合放疗的患者的基因,我们可以看看适合药物A的患者和适合药物B的患者的差异表达基因。
表达矩阵在进行上机之前,首先会对样品进行分组处理,比如药物组和空白对照组,然后再进行上机测序,下机之后我们会得到一批差异表达矩阵。
假如:Gene A 药物组高于空白对照组,Gene B 空白对照组高于药物组。如果能抑制这些基因表达,那么我们就可以治疗相关疾病。而在基因的差异表达分析中,也是同样的基本原理。
数据类型
表达矩阵有Count、FPKM、RPKM、TPM等数据类型。
Count:每个基因或转录本的原始测序计数,即测序仪器记录的每个基因的 reads 数。看到表达矩阵是整数的,基本上为Count,我上面展示的表达矩阵就是Count。FPKM、RPKM、TPM:进行标准化后的表达量。更直观的表达量,进行各种分析通常都用它们。
p值和Fold change含义
p值:p值就是看有没有差异的概率。如果没差异的概率小于0.05(p<0.05),则证明有差异。
Fold change翻译过来就是倍数变化,假设A基因表达值为1,B表达值为3,那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平,所以基因表达值肯定是非负数,那么Fold change的取值就是(0, +∞)。
FC>1,则Gene B>Gene A,比如说FC=2,则表明Gene B是Gene A的两倍;
FC<1,则Gene B<Gene A,比如说FC=0.5,则表明Gene B是Gene A的0.5倍;
FC=1,则Gene B=Gene A,则表明Gene B是Gene A的1倍。
在生信分析中,我们一般会给定一个筛选标准,而在差异分析中一般都是取倍数的log2值。
比如下图中,图中每个点代表一个特定的基因或转录本,红色点表示显著上调的基因,蓝色点表示显著下调的基因,黑色点为非显著差异基因;将所有基因或转录本映射上去之后,可以获知,在左边的点为表达差异下调的基因,右边的点为表达差异上调的基因,越靠左边和上边的点表达差异越显著。通过log2 FC值的筛选,我们能快速锁定样本中有多少差异表达基因,并且知道其基因差异表达值的变化大小。
总结
这期我们主要了解如何分析转录组基因表达分析的结果,如果老师感兴趣可以关注我们的公众号,下期我们会继续推送我们转录组的结题报告相关内容。