唐代诗人白居易曾感叹:“夜来南风起,小麦覆陇黄”,只言片语便描绘出农耕社会里麦熟时节的盛夏光景。古时,农人以深耕细作守护着口粮与生计,朝夕交替间,人类的悠远文明便在这份原野的守护中徐徐展开。
时过境迁,在数字时代的今天,也有这么一群深扎热土的“田间守护者”。
来自北京大学现代农业研究院(以下简称“北大农研院”)的小麦抗病遗传育种团队,便凭借对植物基因组的多年研究,从小麦及其近缘种属中发掘、定位、克隆、转育到多个优异的抗锈病基因,如Sr13和Yr15等,足以大幅提升主栽小麦品种的韧性,已帮助全球不同国家培育新物种超过100个。
事实上,小麦作为当今依旧最重要的粮食作物,在种植栽培上所面临最大的病害便是小麦锈病。其危害强、范围广,轻则致麦粒不饱满,重则致麦株枯死,若不根治,将长期威胁我国小麦的产能与质量。
这背后,是北大农研院对植物基因技术孜孜不倦的突破,是麦浪涌动间对土地的另一种数字守候。
粮安天下,种铸基石 黄土地间的数字涌动在遗传学中,每种生物都蕴含了特定的一组基因,称之为基因组,其蕴藏着这一生物的起源、进化、发育、生理等重要信息。通过控制蛋白质或控制酶的合成,这些基因将直接或间接地控制生物的性状,譬如玉米植株的高矮、产量的高低、是否抗倒伏等等。
如今,全球粮食依旧呈现紧缺与分配不均的现状,如何快速提升水稻、小麦、玉米等农作物的产量和质量?温度、光照、水分、土壤的复杂影响下,如何提高作物对干旱、霜冻等严峻环境的抗逆性和适应性?全球每年多达40%的农作物产量因病虫害而损失,如何发现更具抗病虫害能力的作物品种,提高抵御力?
基因组测序与分析技术,便是回答这一系列问题的答案。
自1990年学界启动“人类基因组计划”以来,一系列作物基因组计划也相继启动,如水稻基因组计划、玉米基因组计划、小麦基因组计划,致力解开作物基因组的谜团。通过研究不同植物品种在基因图谱上的表现规律与特殊功能的关联,再进行编排、重组,为作物遗传改良和新品种培育提供极佳的思路和方法。
然而,对作物基因组的研究分析过程又是极其复杂的,这包括了基因序列比对、基因表达分析、基因功能注释、基因网络构建等,涉及海量数据的处理和读写。
例如,一株小麦的基因组数据就有17GB之大、重复序列含量高达85%、过程数据将膨胀5倍之多,致使基因组破译难度巨大,组装一个大型作物基因组可能需要短时间内并行处理数百万个序列片段数据,注释则需要对数千个基因进行功能预测和分类。
换句话说,要想推开植物基因奥秘的大门,就要先通过一轮对存储底座的试炼。
“小麦跟人一样也会生病,我们要做的就是为小麦植入‘抗病’程序。”作为农业创新的先行者,北京大学现代农业研究院已经走在与小麦锈病作斗争的路上很多年。基因组数据的高效处理和存纳离不开一个得力的助手——超算平台,为各项研究提供高性能计算、组学分析和科研数据存储服务。
这其中,离不开华为OceanStor Pacific分布式存储的鼎力相助。基于华为OceanStor Pacific分布式存储这一强大的数据基础设施底座,双方携手构筑基因数据分析平台,满足研究院各类植物基因生信分析任务,为智慧农业研究、农业生产大数据、农业资源大数据等方面提供强有力的支撑。
守护金饭碗、菜篮子和油桶子 海量数据的安心之选在风吹日晒的山野耕种中,农人需要在犁地、播种、施肥、锄草、灌溉等一系列环节对作物进行悉心呵护;而在漫长冗杂的植物基因科研中,数据存储也需要对海量数据发挥同样的作用。
植物基因组测序、注释、编辑和模型计算是典型的大规模数据密集型场景,北大农研院的基因数据分析平台便必须承载整个流程的全部数据,包括收集而来的原始基因组数据、经过清洗或打碎后的大量片段文件、基因比对与变异分析过程的中间信息、以及长期归档以供未来二次分析的温冷数据。
一系列数据的流转和调度,都需要强大的数据存储作为擎托。北大农研院对此提出了清晰的诉求:
其一,作物基因组研究中涉及到大量的基因组测序、表达谱测定、SNP分析等数据产生,需要充足容量、巨大吞吐量的数据底座支撑;
其二,由于基因测序的整个过程会有持续化的碎片文件读写,绝不允许被中断,这就要求支撑测序应用的存储系统具备极致的稳定性和可靠性,确保数据不会丢失或损坏;
其三,在冷冻电镜和基因数据分析工作中,对存储系统的整体性能、小文件处理能力提出更高要求。
在华为的助力下,北大农研院面临的一系列挑战迎刃而解。
首先,存得下。在容纳海量基因数据方面,北大农研院通过借助华为OceanStor Pacific分布式存储构筑了超大容量资源池,为研究院众多基因组、转录组、表观组及代谢组、蛋白组和智慧农业研究提供充分支持。源于OceanStor Pacific的超高密硬件设计,在高效散热与空间利用上的创新突破,单框可容纳高达120块盘,容量密度领先业界至少30%。
其次,用得稳。OceanStor Pacific以软硬结合构筑多级可靠性保障。从硬件上,其采用全FRU(Field Replaceable Unit) 设计,可满足7×24小时不停机维护。从软件上,其采用跨节点大比例动态EC算法,可满足4节点同时故障业务不中断。经POC实测,整体集群具备稳定、高可靠能力,保障了不同作业负载下的持续运行。
第三,跑得快。OceanStor Pacific单存储节点读带宽实测达到6GB/s,近乎翻倍的性能满足北大农研院更高的高通量表型组图像处理需求,最大化提升计算资源效率。同时,OceanStor Pacific采用新一代OceanFS并行文件系统,一套存储满足基因测序异构计算高带宽和高IOPS要求,并结合DPC分布式并行客户端,消除单流与单客户端的性能瓶颈,支撑I/O级负载均衡的全场景加速。
存力加持,洞见每粒种子的巨大潜能事实上,小麦抗病育种仅仅是北大农研院在探索农业与科技融合的冰山一角,我们还看到了其基因工程多姿多彩的产物。
例如,首个西瓜T2T无缺口参考基因组成功组装、注释并发表,成为业界里程碑意义的研究成果;大豆玉米带状复合种植洁田模式,在玉米不减产的前提下,一亩地能多收300多斤大豆;创建了一套高效精准的基因编辑工具,可使黄瓜遗传转化率提高25倍以上……
地能尽其利,则民食足;物能尽其用,则材力丰。在基因技术、数字技术点亮大地之前,存储底座必须更坚实、更强大一点。
从土壤深处到民生大计,华为分布式存储为基因工程产业搭建起一级级“存得下”、“用得稳”、“跑得快”的数字台阶。当我们踏着华为分布式存储的台阶,一个又一个生物育种技术的创新成果便近在眼前,熠熠生辉。
今天,很多人类的科学问题、产业转化问题,最终都变成了数据的问题。而人类今天所面对的数据密集型场景,也远不止基因测序这一个。华为OceanStor Pacific分布式存储将持续创新,点燃千行百业数字化的跃升引擎,释放海量数据的非凡潜力。