大家好,我是尹烨。你知道全世界能够存储数据的最高效的载体是什么吗?我们都活在了一个信息爆炸的年代,每一天互联网上的数据到底有多大?据统计2023年咱们国家的数据总量是32.85ZB(泽字节),一个ZB相当于10的21次方字节,你可以算一下,一天就是900亿个GB。
而放到全世界,2023年大概是120个ZB,到2025年这个数字将达到175个ZB。
数据存储的需求这么多数据都放哪儿?除了存储在各个终端,你的手机里有,我的手机里有,大部分数据可能都放在数据中心里了。
全世界大概有600个超大规模的数据中心,基本上每一个数据中心平均有超过5000台服务器。但是即使如此,我们还是跟不上日益增长的数据存储需求,大家想想自己的手机是不是很快就满了。所以,每过两年又得重新再多建100个超大规模的新的数据中心。
当然这个数据中心不是你想建就建的。每一个数据中心它的背后实际是能源支持,要大量的电力支持,不仅高能耗还会对环境产生负面影响,可以说数据存储就像我们今天的超级计算一样,是全世界都头大的问题。那能不能有一种更高效、更低能耗的数据存储方式?
我经常说,与其人类自研,不如道法自然,要以自然为师。人类搞不定的问题就要从生命里去寻找,近年来DNA存储成为这个领域炙手可热的研究热点。
DNA也能存东西吗?当然能。我们每一个人,每一个蓝鲸,每一个大象,都来自于一个受精卵,那一个受精卵是怎么知道你是人还是蓝鲸还是大象的?
就因为我们的基因组,所以每个人来举例的话,我们的遗传信息都写在了30亿个碱基对里面。爸爸30亿,妈妈30亿,合在一起就是一个受精卵。它们存储在一个受精卵内,这个里面的DNA的绝对的物质量只有6个皮克(pg),皮克是10的-12次方克,所以妈妈通过280天就把这一个受精卵扩展了1万亿份。
你变成新生儿呱呱落地的时候,你是刚好差不多就是1万亿个细胞,所以妈妈是很厉害的,这个复制的效率要比我们的硬盘强多了。
如果我们能用所有的DNA来存储人类的文明数据,一公斤DNA就够了。1克DNA理论极限上能存储的数据是455个EB,而且DNA分子非常稳定,低温条件下能存数千年甚至更长的时间。所以它有非常大的潜力,能够成为一种全新的高密度冷存储的介质。
既然DNA存储这么高效,为什么没有推广应用呢?
第一个就是写它的成本比较高,你要把这些数据0101变成ATCG,然后再把它合成出来,这个技术目前还不够成熟。2022年有一个综述预估,如果在DNA里面写一个TB的数据,成本需要8亿美元,这个成本乍一听是非常炸裂但是也不用咂舌。
当年第一个人的基因组(测序)我们花了38亿美元,今天只要花100美元就够了,所以我们还是把这个问题留给技术和时间。
第二个问题是,实际我们目前的测序的技术的问题,就是它的这种读写和解锁的速度都比较慢。虽然DNA的测序成本已经比合成成本低很多了,但是比传统的数据的存储方式还是高。
比如说放到硬盘,放到U盘,随时都可以读取的这叫热存,刚才说的那种方式叫冷存。这种冷存储实际上你可以冻在那儿,不经常使用,但读出来的时候你还是要用测序的。
就像以前我们拿光驱读光盘,现在你要拿测序仪去读它的DNA信息,还是要用专业的设备,专业的人员,他的读取的门槛,包括它的响应速度都还是不够的。
DNA存储新方法今年10月份,来自亚利桑那州立大学,包括北大计算机学院的一个联合团团队,在nature上发了一个文章。他们另辟蹊径,利用DNA的甲基化来存信息。
什么叫甲基化?简单的讲,甲基化是我们DNA上的一种表观遗传修饰。举个例子,如果一副扑克牌的背面都一样,我们管它叫DNA,但是如果你出了老千,在一部分牌上标注了一些记号,我们就可以去管它叫甲基化。
相当于我们在DNA里面的碱基,每个人给戴了一个甲基的帽子,原来就是一个氢,现在变成了一个甲基,它就变成这样一个基团了。
它干什么呢?它好像没有改变基因序列,但它却能够调控基因的表达。在人类的细胞内大概正常的状态下,1%的DNA实际上是处于甲基化状态。
通过这样的方式怎么来实现DNA存储呢?
首先他们准备了一条单链的DNA载体,以及一堆可以跟载体互补的短链的DNA,然后他们按照要存储的信息,逐一为短链上的这些DNA碱基给它戴帽子:编码是1的话戴帽子;编码是0就不戴帽子。
用这样的方式把数据扔到了DNA里,然后在一些酶的催化下,带着数据的短链DNA会自己因为A对T,G对C,慢慢地就补到了互补的那条DNA载体上,形成了一个完整的DNA双链。同时又在另外一个甲基转移酶的作用下,这些甲基化的信息就会平行地,实际上是根据碱基互补原理,把它复制到了你开始准备的这个长的DNA载体链上。
最后你把这个载体链测个序,我们就能知道原来它这里的信息,根据0101,我就知道你在告诉我什么了。
这个存储方式的优点在于它不用我们一个一个碱基去合成DNA,只需要在现在通用的DNA上,通过任意的甲基化来编码0和1,从而实现信息的存储。它的花费的时间和成本都大大降低了。
光有一个理论还不行,我们还得举一个实实在在的案例。研究团队把一个中国汉代老虎的拓印图,还有一张熊猫的彩色图片都放到了DNA里。老虎的拓印图大小是16833个字节,很小的一个图片,它分成了48个条形码,以刚才的这种甲基化的方式存到DA里。
然后第一次拓印完了以后测了一下,准确度只有90.35%,然后还得重新去迭代一些算法。第二次准确率已经达到了93.6%了。
研究人员就发现,原来是识别很多甲基化位点的准确率比较低。把这些位点再排除之后,准确率就从93.6%到了96.3%,再继续给一个编码纠错方案,最后数据终于完全恢复。
通过这样的一个训练出来的方案,再去存储比这个老虎图片大的很多的熊猫彩色图片,这个图片有252504个字节,图像得到了完美的恢复。就是通过一开始的训练得到一个好的算法,然后再把它付诸于应用。
我关注DNA存储这个领域已经很多年了,至少在2016年开始,我就已经开始在公开的场合不断的推荐这样的一个技术,包括我的科普书籍《生命密码》《了不起的基因》都讲过DNA存储技术。
所以当我看到这个来自于北大计算机学院的联合研究成果,我也感到非常的激动。通过表观遗传来存储信息的思路可谓别出心裁,也有望为我们DNA存储技术开辟一条新的道路。
我也非常盼望看到这个技术的成熟,毕竟用有机碳存储,而不是用无机硅存储,是人类跟自然学习的一个特别好的方式,也希望到那一天,数据存储对人类来讲将不再是问题。
您对DNA存储技术有什么看法?欢迎留言分享。