脱氧核糖是啥(万物皆“硬盘”DNA存储的自然之道)

时间:2024-09-15 08:32:39

一听DNA感觉很高大上,第一个从脑子跳出来的词条就是遗传。那我又百度词条搜索了一下,什么是DNA?给出的答案是:脱氧核糖核酸(英文DeoxyriboNucleic Acid,缩写为DNA)是生物细胞内含有的四种生物大分子之一核酸的一种。 DNA携带有合成RNA蛋白质所必需的遗传信息,是生物体发育和正常运作必不可少的生物大分子。

从字面的意思来讲就是存储遗传信息的,那怎么和我们说的数据存储扯上关系了呢,那我又搜索了一下相关DNA存储的信息。



进入21世纪之后,世界的数据呈爆发式增长,数据量级越来越大,按照现有发展速度传统硅基存储介质是否还能撑住,就成为了许多人关心的一个问题,大家都在探讨是否会有枯竭的那一天,如果枯竭了我们还能用什么东西来存储我们的数据。于是DNA存储成为了最大可能的选项。

我们其实知道,电脑上存储的数据都是依据电压的高和低代表0和1的,任何数字、字符和标点符号都由唯一的一串01组合来构成。比如小写字母「f」的代码是:01100110(f的十进制102=16进制 66),因此,任何数字化的内容(视频,图片,文字)本质上都只是一串串的0和1而已。

那么,DNA的存储原理实际上就是把原本这些用0和1来表示的内容,换成用碱基:A,C,G,T来表示,(DNA由脱氧核苷酸组成的大分子聚合物。脱氧核苷酸碱基脱氧核糖磷酸构成。其中碱基有4种:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。)这是一个从数字信号到化学信号的过程。而且由于碱基有四个,相比起原本的0和1,我们可以用来多表示两个状态,比如,我们可以假设用A代表00,C代表01,G代表10,T代表11。一个本来要用8bit代表的字符用DNA编码的话,只需要用4个化学碱基,比如上面的小写字符「f」编码成为DNA序列就是:CGCG。


左图显示的是一帧帧母马AnnaG奔驰的画面,右图是细菌经数次生长后,研究者利用测序细菌DNA重构的图像。

一些研究成果已经显示,CRISPR系统可以使用两种蛋白质将遗传密码插入目标细胞的DNA中,从而可以将信息传输至活细胞。为了证明这一点,美国哈佛医学院的Seth Shipman及同事使用CRISPR系统将多张图片和一个短GIF编码进了大肠杆菌(Escherichia coli),该GIF显示了来自《人类和动物的运动》中名为Annie G的马奔跑的5帧影像,大小为36x26像素。他们使用DNA的基本组成核苷酸生成代码,一个代码关联一张图片的单个像素。至于GIF,他们将序列逐帧传至活细菌,并按传输顺序将它们插入细菌基因组中。一旦被插入大肠杆菌的基因组中之后,这些数据可以再通过测序DNA重新提取出来,通过读取像素核苷酸代码,可以将图片重构出来,准确度达90%左右。

本研究不仅表明CRISPR系统有望使在活细胞中存储一定数量数据成为可能,而且揭示了有关CRISPR系统功能的新认知。例如,作者确定了哪些序列最适合将数据传输至基因组,而这也有望指导CRISPR系统的其它应用。

DNA存储结构和磁盘不同,它存储的密度极高,可谓是 小体积,大作为。不需要成千上万个阿里巴巴或者AWS的数据中心,看起来还更加经济实惠,但目前仍然存在着一定的问题。



合成成本高

DNA要存储信息,首先要做的就是依据信息合成DNA序列。那么现在的合成成本是多少呢?大约0.05-0.1美元一个碱基。也就是说存储2bit(一个碱基)的数据需要花费大约0.5-1.0块钱人民币。按照目前的信息存储技术,一般是8bit为一个字节(Byte),2个字节(Byte)才代表一个字符——也就是说8个碱基可以编码一个字符,假如按照每个碱基0.05美金计算,要合成200MB的数据需要花费4×0.05×2亿字节=4千万美刀的巨资!而200MB的大小的文件还不够一个长一点的短视频大啊!更何况现在动不动就几个GB的电影呢。因此,碱基合成的成本是第一个需要解决的难题,如果成本无法降低一百万倍,那么无法进入实用环节,而如果不能降低几亿倍甚至几十亿倍,那么我认为这个技术将很难被大规模使用。


存储速度

这个问题可能更要命。我们现在磁盘的存储速度是多快呢?磁盘的读写毕竟是电磁信号,信息状态的改变是以光的速度在发生的——当然磁盘在读写数据的时候需要进行非常多的定位、查询、比较、校验等一系列复杂的操作,因此远低于光速。然而即便如此,目前普通的SSD硬盘读写速度也有300MB/s-500MB/s,差一些的高速硬盘也在100MB/s左右!而DNA的合成速度有多快呢?DNA的合成依赖于一系列的化学反应,大肠杆菌的DNA(合成)复制速度大约是1000碱基/秒,看起来很快了,但它的速度在电磁面前根本不值一提,我们可以算一下合成200MB的数据需要多久呢?200 * 1024 * 1024 * 8 / 1000 /86400 = 19 天!也就是说现在磁盘1秒钟写入的数据,我们大约需要花差不多三周的时间才能完成!

数据读取无法实时

DNA存储的数据要读取出来目前是通过测序这条路。虽然相比于DNA合成,测序的问题小了很多。按照当前最新的测序技术,一台NovaSeq测序仪基本上能够在两天的时间内完成3Tb-6Tb数据的解码。成本相比于DNA合成也基本低了一百万倍左右。

数据随机读取仍需进一步解决

所谓随机读取数据的意思就是我想打开哪一份文件就打开哪一份,并且我想读取其中的哪一段就读取哪一段,而且这个操作必须要在很短的时间内实现。这对于存储在DNA中的数据文件来说要如何才能够做到,DNA存储仍然是个极大的挑战。