提起存储信息的媒介,我们一般想到的是硬盘、光盘,或者还有早先的软盘和磁带,恐怕谁也不会想到,大自然最古老、迄今容量最大的存储媒介其实在我们每个人身上,也在身边每一个生物体内,那就是存储生命密码的DNA。
自地球上最早的生命出现以来,大自然通过DNA存储信息至今已经沿用了35亿年。硬盘、光盘在地上摔几次恐怕就要报废,再也读不出数据来,而DNA却不怕摔,不怕冻,经久耐用,即便离开生物体,在自然环境中也能保存数万年而不腐。
当然,最令人羡慕不已的还是它那惊人的存储能力。我们知道组成DNA的基本单元是脱氧核苷,每个脱氧核苷都带一个碱基,而碱基共有四种类型:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞核嘧啶(C)。如果用0、1、2、3各代表一个碱基,就组成一个四进制的存储方式。人类基因组包含大约相当于750 MB的信息,这么多信息就储存在一条比细胞还小得多的DNA上。这些信息事无巨细地告诉我们的身体:鼻子该长哪儿,眼睛长成什么颜色,某个蛋白该怎么合成……
大自然既然早已经为我们发明了这么强大的存储工具,我们为何不利用起来呢?科学家早就想到了这一点,并且近年来随着生物技术的突飞猛进,这一设想正走向现实。
在生命体内“刻字”
起初,科学家的设想是把信息存到生物体的DNA中。
我们知道,在DNA上,不仅存放着那些与生命活动有关的基因,还存放着大量曾经与生命活动有关、但后来失效了的基因。我们称这种基因为“垃圾基因”。对于有用的基因,一个碱基都不能随便更改,而对于垃圾基因,其上面的碱基不论怎么改动都不会对生命活动造成影响。如果我们把DNA比喻成一本书,这些垃圾基因就相当于书中插进去的一段段乱码。在乱码段落里,里面的字符不论怎么排,都不影响我们对整本书内容的理解,——因为除了傻子,谁会去读这些乱码呢。
不可思议的是,在大多数生物体DNA这本大书中,竟然多数段落都是乱码。就拿人类的DNA来说,97%的区域都被垃圾基因占据了,人类基因组22000个有用基因,总长度仅占DNA的3%。
于是科学家想,既然DNA上的“乱码区”可以随意填写,那何不填写上我们需要保存的信息呢?举个例子。现在要在DNA上存储“大科技”三个字。我们先把它们转化为电脑上的二进制码,然后再把二进制码转化为DNA上的“碱基文字”,譬如说转化结果是“A-T-T-A-C-C-G”,最后在某个细菌的DNA上的垃圾基因截取一段,把该段的“乱码文字”用“A-T-T-A-C-C-G”替代。那么随着这个细菌不断繁殖,只要这段区域不发生基因突变,所有后代身上都将带上了“A-T-T-A-C-C-G”这段信息。几百年后,我们的后人只要抓起一个细菌,通过基因测序,把这段代码测出来,就可以还原它所代表的意思——哦,原来是“大科技”!
2000年,美国生物学家就把一段信息“刻”进了细菌的体内,当然不是“大科技”三个字——我们还没有这么荣幸。他们刻进去的是爱因斯坦著名的质能方程“E=MC2”。2003年,有人又把迪斯尼动画片中的一段曲子“刻”进了细菌体内。2010年,当首个人造细胞诞生时,领导该项工作的美国基因学家卡耐基·文特尔又把所有参与该项目的科学家的名字“刻”进了人造细胞的DNA上。
在人造DNA上刻写
顺便提一下,为什么上述实验都要用细菌刻写呢?因为细菌是无性生殖的,也就是说,除非发生基因突变,子代和母代的DNA是完全相同的。有性生殖的生物就不行,因为在交配过程中,基因要发生重组,来自另一方的“乱码字符”将插进你刻的信息里头,到了下一代的DNA上,你恐怕就读不出原先的意义来了。
这种方法很巧妙,是不是?可惜还有缺点。因为生物体的基因总在发生着突变,不论有用还是没用的基因概不例外。基因突变在分子水平上表现为核苷酸上的碱基要么被取代,要么缺失,要么插进新的碱基。所以,你“刻写”在生物体上的信息,一代代随着时间的推移,错误将越来越多,譬如,“刻”在细菌DNA上的“大科技”过上几千年读出来说不定就成“小科技”了,再过上几千年压根儿就完全没有意义了。
为了避开这个缺点,由美国哈佛大学的分子生物学家乔治·邱奇领导的一个小组2012年8月尝试了另一种办法。他们所用的材料不是活细胞的DNA,而是人工合成的DNA。人造DNA除了不会发生基因突变这一优点外,还有一个好处是整条DNA都可以用于刻写,不像活细胞的DNA,刻写时你得小心翼翼地避开有用的基因。
在刻录的时候,他们先把文字、图片都转化成电脑上的二进制代码;然后用A或C代替0,用G或T代替1(这样做实际上把DNA上的四进制简化成了二进制);最后按这个编码在试管里合成出人造DNA。因为目前人工合成长链DNA还比较困难,他们就采用了好多段短链DNA,这些短链DNA有秩序地排布在玻璃芯片上,信息则被分存在这些短链DNA上,——这类似把硬盘分成几个扇区。读的时候,用基因测序仪器按秩序读出这些DNA上的碱基编码,然后还原成二进制0和1的编码,最后电脑就可以把信息所包含的文字、图片都显示出来。
惊人的存储能力
这一次,邱奇等人竟然在人造DNA上“刻”进了整整一本书的内容,这本书包含53246个英文单词,11张图片和1个电脑程序,总计5.27MB。所储存的信息量比过去DNA上“刻”进信息的最高纪录还要高600多倍。出错率仅为百万分之二,就是说,这么一本厚书,仅出错几个字母。这些信息在常温下至少能稳定保存40万年。
用DNA存储信息,容量大得惊人。在这次实验中,科学家总共用了55000段短链DNA,但DNA总质量还不到万亿分之一克。据计算,单1克的DNA就能存储4.55×10^20比特,倘若把这些信息刻成光盘,需要1000亿张DVD。目前人类每年生产的全部数字信息,仅用4克DNA就可储存。
不过,用DNA存储跟同光盘存储一样有个缺点,那就是一旦制作成,就只能读,不能写。因此,这种办法比较适用于需要长期备份保存的大容量数据,像我们电脑上写文章,需要经常修改,那就没必要用它来保存数据了。
目前,DNA存储还有另两个缺点,一个是费用比较昂贵,还有一个是刻录和读取都比较慢。比如这次为了刻这本书,科学家就用了好几天。但随着生物技术的发展,这两个缺点未来都将会被克服。就拿基因测序的费用来说(因为DNA存储和读取都需要用到基因测序技术),2012年的费用仅是2001年的百万分之一。
所以用DNA做超级硬盘,廉价、快速地存储海量信息不是遥远的梦想。