报告解读|微生物多样性-OTU聚类和物种注释(一)

元莘生物 2024-08-07 11:14:05

导语

16S扩增子测序想必大家都不陌生了,但是拿着一大堆数据和图表,手足无措,不知如何下手,写文章更是没有思路。好多客户来咨询时,常问一个问题是“微生物多样性分析怎么看结果呀”。为解决这一问题,结合元莘生物16S扩增子测序分析报告,我们将开启微生物多样性报告解读专题模块,连载更新16S扩增子测序分析报告,帮助你更好地理解数据,从而更有信心地撰写出高质量的文章。干货满满,特别是没有接触过微生物16s测序的同学非常友好哦~

微生物多样性分析报告主要分为五个部分:OTU聚类和物种注释、Alpha多样性分析、物种组成分析、Beta多样性分析以及差异分析。本期给大家分享的是微生物多样性-OTU聚类和物种注释。

板块一:首先我们需要搞清楚一个非常重要的概念——OTU。

操作分类单位(OTU:Operational Taxonomic Units)是一种操作定义,用于对密切相关的个体群体进行分类。这个术语最初是在1963年由Robert R. Sokal和Peter H. A. Sneath在数字分类学的背景下引入的,其中一个“操作分类学单位”只是目前正在研究的生物体群。在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。在生物信息分析中,一般来说,测序得到的每一条序列来自一个菌株。要了解一个样品测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。

板块二:为何要进行OTU聚类?

测序完成后,每例样品的测序序列达到几万条,对每一条序列都可以进行物种注释,但该方式工作量大,每一条序列均需要与数据库进行比对且耗时,而且扩增、测序等过程中出现的错误会降低比对结果的准确性。

OTU聚类是将相似的微生物序列归类到同一个OTU中的过程。聚类可以根据序列相似性来组织微生物种类,从而更好地理解微生物群落的组成和结构。每个OTU代表了一组在某个相似性阈值下归类的微生物序列。通过聚类,可以将大量的微生物序列数据简化为一组代表性的OTU,从而减少计算和分析的复杂性。在16S多样性研究中,目前主要还是按照序列97%的相似性进行OTU聚类。主要原因:在16S全长比对中,97%相似性可以认定为同一个种,所以可以初步认为一个OTU属于一个种的微生物,而细菌16S研究中,解释度最可靠的分类学地位是“属”,所以97%相似度划分OTU可以被接受。如此操作,在简化了工作量的同时,还提高了分析效率,而且OTU在聚类过程中还可以去除一些错误的序列,如嵌合体序列,提高分析的准确性。

在测序数据下机后,我们要对数据进行统计,总的来说,单个样本数据量满足3万条tags就可以了,该数据量也是满足多样性分析要求,同时也满足文章发表要求的。这里需要注意的是测序平台的选择,有二代测序和三代测序之分。两者的区别在于三代是全长扩增子测序,包含了V1-V9区域,而二代测序则包含的是两个(如V4-V5区)或者单个(如V4区)区域。以二代测序(V4-V5)数据为例,以下展示的是样本二代测序序列长度主要集中在401bp至500bp。

样本序列长度分布

在质控过滤完低质量数据后,对优化数据进行统计,然后就可以进行多样性的数据分析啦~

以下展示的是个样本序列统计表:

注:Sample:样本名称;Sequences:样本分析时的优化数据的序列条数;Bases:样本优化序列碱基数;AverageLength:样本优化数据的序列平均长度。

板块三:OTU聚类——分析方法

(1)聚类之前要对优化序列进行去冗余,便于降低分析中间过程冗余计算量;

(2)去除没有重复的单序列;

(3)按照97%相似性对非冗余序列(不含单序列)进行OTU聚类,在聚类过程中去除嵌合体,得到OTU的代表序列;

(4)将所有优化序列MAP至OTU代表序列,选出与OTU代表序列相似性在97%以上的序列,生成OTU表格,即OTU丰度表(OTU-table)。其中,OTU ID表示序列ID;第二列至后面的每一列,表示各样本序列在各个OTU中的丰度。

板块四:物种注释

为了得到每个OTU对应的物种分类信息,在OTU聚类完成后,会对每个OTU进行物种注释,采用RDPifier贝叶斯算法对97%相似水平的OTU代表序列进行分类学分析,生成OTU分类学综合信息表(OTU-taxa-table),并分别在各个分类水平:domain(域),kingdom(界),phylum(门),class(纲),order(目),family(科),genus(属),species(种)统计各样本的群落组成。其中,OTU ID表示序列ID;第二列至后面的每一列,表示各样本序列在各个OTU中的丰度,“taxonomy”表示最后一列可以查看分类学系谱信息,各级分类水平以“;”隔开,分类学名称前的单个字母为分类等级的首字母缩写,如domain(域)缩写为“d”,以“__”隔开。

在元莘生物的扩增子报告中,提供了OTU抽平和非抽平的结果文件。在抽平结果文件中包含有tax-summary-a和tax-summary-r两个文件夹,其中,-a文件夹中表示的是序列数的统计,-r文件夹中表示的是序列相对丰度百分比。这两个文件夹中的表格第一列均为物种分类名称,第一行均为样本名称,同时提供了不同分类水平的统计信息,分组或者不分组的。

0 阅读:0

元莘生物

简介:专注于分子生物学好和高性能计算在医学领域的应用