北大新研究：利用表观遗传，将大熊猫照片存入DNA并无损还原

大家好，我是尹烨。你知道全世界能够存储数据的最高效的载体是什么吗？我们都活在了一个信息爆炸的年代，每一天互联网上的数据到底有多大？据统计2023年咱们国家的数据总量是32.85ZB（泽字节），一个ZB相当于10的21次方字节，你可以算一下，一天就是900亿个GB。

而放到全世界，2023年大概是120个ZB，到2025年这个数字将达到175个ZB。

数据存储的需求

这么多数据都放哪儿？除了存储在各个终端，你的手机里有，我的手机里有，大部分数据可能都放在数据中心里了。

全世界大概有600个超大规模的数据中心，基本上每一个数据中心平均有超过5000台服务器。但是即使如此，我们还是跟不上日益增长的数据存储需求，大家想想自己的手机是不是很快就满了。所以，每过两年又得重新再多建100个超大规模的新的数据中心。

当然这个数据中心不是你想建就建的。每一个数据中心它的背后实际是能源支持，要大量的电力支持，不仅高能耗还会对环境产生负面影响，可以说数据存储就像我们今天的超级计算一样，是全世界都头大的问题。那能不能有一种更高效、更低能耗的数据存储方式？

我经常说，与其人类自研，不如道法自然，要以自然为师。人类搞不定的问题就要从生命里去寻找，近年来DNA存储成为这个领域炙手可热的研究热点。

DNA也能存东西吗？当然能。我们每一个人，每一个蓝鲸，每一个大象，都来自于一个受精卵，那一个受精卵是怎么知道你是人还是蓝鲸还是大象的？

就因为我们的基因组，所以每个人来举例的话，我们的遗传信息都写在了30亿个碱基对里面。爸爸30亿，妈妈30亿，合在一起就是一个受精卵。它们存储在一个受精卵内，这个里面的DNA的绝对的物质量只有6个皮克（pg），皮克是10的-12次方克，所以妈妈通过280天就把这一个受精卵扩展了1万亿份。

你变成新生儿呱呱落地的时候，你是刚好差不多就是1万亿个细胞，所以妈妈是很厉害的，这个复制的效率要比我们的硬盘强多了。

如果我们能用所有的DNA来存储人类的文明数据，一公斤DNA就够了。1克DNA理论极限上能存储的数据是455个EB，而且DNA分子非常稳定，低温条件下能存数千年甚至更长的时间。所以它有非常大的潜力，能够成为一种全新的高密度冷存储的介质。

既然DNA存储这么高效，为什么没有推广应用呢？

第一个就是写它的成本比较高，你要把这些数据0101变成ATCG，然后再把它合成出来，这个技术目前还不够成熟。2022年有一个综述预估，如果在DNA里面写一个TB的数据，成本需要8亿美元，这个成本乍一听是非常炸裂但是也不用咂舌。

当年第一个人的基因组（测序）我们花了38亿美元，今天只要花100美元就够了，所以我们还是把这个问题留给技术和时间。

第二个问题是，实际我们目前的测序的技术的问题，就是它的这种读写和解锁的速度都比较慢。虽然DNA的测序成本已经比合成成本低很多了，但是比传统的数据的存储方式还是高。

比如说放到硬盘，放到U盘，随时都可以读取的这叫热存，刚才说的那种方式叫冷存。这种冷存储实际上你可以冻在那儿，不经常使用，但读出来的时候你还是要用测序的。

就像以前我们拿光驱读光盘，现在你要拿测序仪去读它的DNA信息，还是要用专业的设备，专业的人员，他的读取的门槛，包括它的响应速度都还是不够的。

DNA存储新方法

今年10月份，来自亚利桑那州立大学，包括北大计算机学院的一个联合团团队，在nature上发了一个文章。他们另辟蹊径，利用DNA的甲基化来存信息。

什么叫甲基化？简单的讲，甲基化是我们DNA上的一种表观遗传修饰。举个例子，如果一副扑克牌的背面都一样，我们管它叫DNA，但是如果你出了老千，在一部分牌上标注了一些记号，我们就可以去管它叫甲基化。

相当于我们在DNA里面的碱基，每个人给戴了一个甲基的帽子，原来就是一个氢，现在变成了一个甲基，它就变成这样一个基团了。

它干什么呢？它好像没有改变基因序列，但它却能够调控基因的表达。在人类的细胞内大概正常的状态下，1%的DNA实际上是处于甲基化状态。

通过这样的方式怎么来实现DNA存储呢？

首先他们准备了一条单链的DNA载体，以及一堆可以跟载体互补的短链的DNA，然后他们按照要存储的信息，逐一为短链上的这些DNA碱基给它戴帽子：编码是1的话戴帽子；编码是0就不戴帽子。

用这样的方式把数据扔到了DNA里，然后在一些酶的催化下，带着数据的短链DNA会自己因为A对T，G对C，慢慢地就补到了互补的那条DNA载体上，形成了一个完整的DNA双链。同时又在另外一个甲基转移酶的作用下，这些甲基化的信息就会平行地，实际上是根据碱基互补原理，把它复制到了你开始准备的这个长的DNA载体链上。

最后你把这个载体链测个序，我们就能知道原来它这里的信息，根据0101，我就知道你在告诉我什么了。

这个存储方式的优点在于它不用我们一个一个碱基去合成DNA，只需要在现在通用的DNA上，通过任意的甲基化来编码0和1，从而实现信息的存储。它的花费的时间和成本都大大降低了。

光有一个理论还不行，我们还得举一个实实在在的案例。研究团队把一个中国汉代老虎的拓印图，还有一张熊猫的彩色图片都放到了DNA里。老虎的拓印图大小是16833个字节，很小的一个图片，它分成了48个条形码，以刚才的这种甲基化的方式存到DA里。

然后第一次拓印完了以后测了一下，准确度只有90.35%，然后还得重新去迭代一些算法。第二次准确率已经达到了93.6%了。

研究人员就发现，原来是识别很多甲基化位点的准确率比较低。把这些位点再排除之后，准确率就从93.6%到了96.3%，再继续给一个编码纠错方案，最后数据终于完全恢复。

通过这样的一个训练出来的方案，再去存储比这个老虎图片大的很多的熊猫彩色图片，这个图片有252504个字节，图像得到了完美的恢复。就是通过一开始的训练得到一个好的算法，然后再把它付诸于应用。

我关注DNA存储这个领域已经很多年了，至少在2016年开始，我就已经开始在公开的场合不断的推荐这样的一个技术，包括我的科普书籍《生命密码》《了不起的基因》都讲过DNA存储技术。

所以当我看到这个来自于北大计算机学院的联合研究成果，我也感到非常的激动。通过表观遗传来存储信息的思路可谓别出心裁，也有望为我们DNA存储技术开辟一条新的道路。

我也非常盼望看到这个技术的成熟，毕竟用有机碳存储，而不是用无机硅存储，是人类跟自然学习的一个特别好的方式，也希望到那一天，数据存储对人类来讲将不再是问题。

您对DNA存储技术有什么看法？欢迎留言分享。

玩酷网

北大新研究：利用表观遗传，将大熊猫照片存入DNA并无损还原

热门分类