Uploaded by Guo Quan

DNA Storage Blue Book V11

advertisement
DNA 存储蓝皮书
组织机构
顾
欧阳颀
元英进
问
杨焕明
主
编
陈
芳
编
委
曾威锋
倪
陈为刚
齐
陈
昌
马石金
沈
平
王
质
玥
樊春海
汪
亮
鸣
徐
讯
曾文君
浩
戴俊彪
钱
珑
蒋兴宇
刘
宏
郎秋蕾
江湘儿
王启松
徐
涵
刘力维
胡晓芳
致
谢
勇
张颢龄
周
萍
朱怡琼
刘
黄杰锋
王曦梦
肖晓文
赵春德
李璐璐
肖
晔
沈励泽
初
腾
程寿玲
祝
王
志
龚幽兰
林
楠
徐
杭
杨力平
李
焱
卢丽花
罗潇潇
张时雨
林佳慧
版权所有 侵权必究
萍
敏
基因慧 www.geneclub.net.cn
3
DNA 存储蓝皮书
目
录
CONTENTS
一、需求:数据存储现状及 DNA 存储优势
15
1.1 大数据时代下数据存储现状及局限 ������������������ 16
1.2 DNA 存储的原理及优势 ����������������������� 21
1.3 DNA 政策支持与重点研发计划 �������������������� 30
1.4 国内外研发进展 �������������������������� 33
1.5 市场容量和投融资 ������������������������� 38
二、技术:DNA 存储的技术流程与进展
43
2.1 DNA 存储系统简介 ������������������������� 44
2.2 信息编码(比特信息转换为 DNA 序列) ���������������� 46
2.3 DNA 合成(存储信息写入) ��������������������� 56
2.4 DNA 封装(存储信息保存) ��������������������� 77
2.5 DNA 测序(存储信息读出) ��������������������� 86
三、应用:DNA 存储应用场景
96
3.1 概述 ������������������������������� 97
3.2 大数据存储 ���������������������������� 98
3.3 新型数据加密 ��������������������������� 103
3.4 分子追踪系统 ��������������������������� 105
3.5 基于 DNA 计算的分子诊断���������������������� 107
3.6 其他 ������������������������������� 108
四、展望:产业发展机遇及关键点
110
4.1 DNA 存储产业发展的机遇 ���������������������� 111
4.2 未满足需求与关键问题 ����������������������� 114
4.3 发展方向 ����������������������������� 119
版权所有 侵权必究
基因慧 www.geneclub.net.cn
5
DNA 存储蓝皮书
主创团队
主编简介
沈玥,博士,研究员,深圳华大生命科学研究院合成生物学首席科学家,
“广东特支计划”科技创新青年
拔尖人才,2022 年深圳优秀青年科学基金项目获得者,国家重点研发计划“生物与信息融合(BT 与 IT 融
合)
”重点专项项目首席科学家,
“深圳青年五四奖章”和“2021 年深圳市科学技术青年科技奖”获得者,
ISO/IEC 生物数字融合工作组专家。长期从事合成生物学技术以及生物与信息技术融合技术的应用研究。主
持 / 参加国家省市基金项目 12 项。发表论文 36 篇,其中以第一作者或通讯作者发表文章 16 篇。申请发
明专利 35 项,软件著作权 14 项,编制国家标准、地方及企业标准 9 项。成果获得“2017 年中国科学十
大进展”与“2019 年度天津市自然科学特等奖”
、
“2021 年深圳市科学技术奖自然科学类一等奖”荣誉。
汪亮,基因慧创始人&主编,专注基因及生命健康产业研究,参与国家发改委《战略性新兴产业发展展望 》
白皮书执笔,受聘中国遗传学会产业促进会委员、广东省精准医学应用学会政策研究应用分会常委、哈尔
滨工业大学(深圳)特聘教师等;毕业于哈尔滨医科大学生物信息专业,先后服务于国家人类基因组南方
中心、华大和药明康德等;带领基因慧建立首个数字生命健康产业信息平台 YourMap®,连续五年发布年
度基因行业蓝皮书以及单细胞、大数据、肿瘤精准医疗、DNA 存储等行研报告,组织多家行业机构发布多
项行业共识和团体标准。
陈芳,副研究员,深圳华大智造科技股份有限公司研发体系副总裁,从事高通量测序相关应用及产品研
发多年,专注母婴健康领域、测序仪研发等,参与撰写国内首个高通量基因测序仪行业标准、研制多个
国家标准品,参与首例高通量测序技术应用于临床产品的 NMPA 资质;持续拓展测序技术在司法、海
关、疾控、DNA 存储等领域的应用示范。近 5 年发表文章 22 篇、授权专利 7 项,参与完成国家及省级
课题 6 项。
策划机构简介
基因慧专注数字生命健康产业知识服务,创立于 2016 年,创始团队深耕行业一线十余年,秉持“使连
接产生价值,用数据看见未来”的理念,基于产业智库和专业内容,提供产业规划、行研咨询、科技推
广等服务。连续五年发布行业蓝皮书,被国家及省市级产业报告收录,组织多家单位发布行业共识和团
体标准,推动生命科技普惠和产业融合发展。基因慧是国家发改委《战略性新兴产业发展展望》白皮书
执笔单位、中国遗传学会产业促进会委员、全国卫生产业企业管理协会精准医疗分会理事、广东省精准
医学应用学会遗传病分会常委。
6
基因慧 www.geneclub.net.cn
版权所有 侵权必究
DNA 存储蓝皮书
序
言
纳米尺度的 DNA 是人与自然和谐共处的分子桥梁
欧阳颀
中国科学院院士、北京大学定量生物学中心副主任
为了在复杂多变的环境中谋求生机,人类的祖先以木头、石器和骨骼制造工具,同时也用
这些媒介记录信息。这是人类历史的开端。随着信息储存与传播的方式方法不断更替,人类文
明也发生了翻天覆地的变化。进入现代社会,计算机科学的飞速发展带来了信息技术革命;而
信息时代的到来颠覆了地球村的图景。在磁、光、电等介质中存储、并在互联网中飞驰的海量
数字信息在短短几十年内触发了科学、技术和文化的爆炸式进展。
信息是随机序列中涌现的秩序。信息技术的飞速增长,背后是人类对物理世界和对内心情
感的好奇心和不懈探索。文明以语言和文字为载体代代相传,在不断的碰撞、冲击、融合中孕
育了伟大的科技、艺术以及信息自身形式的更迭。在 21 世纪的今天,信息把握着全球政治经济
的脉搏。信息世界的进化复杂性,不亚于生命进化的广博浩瀚。
我们现在很难说,DNA 存储究竟是生物技术对信息技术的革新,还是信息技术对生物技术的
开拓。我们把数字信息写在 DNA 中,把人类的知识、文化和艺术瑰宝镌刻在生命的鬼斧神工之
中,使思想不朽。而我们利用 DNA 制造的分子信息系统也将成为一扇窗户。透过它,我们得以
更精确、更即时的窥探生命的底层逻辑,甚至操控微观生物世界。纳米尺度的 DNA 是人类与自
然和谐共处的一道分子桥梁,DNA 存储领域的研究者正在为它垒起一块块稳固的基石。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
7
DNA 存储蓝皮书
DNA 存储是生物技术与信息技术融合的典范
元英进
中国科学院院士、天津大学副校长
信息存储是人类文明发展的必然需求。《周易·系辞 》有云:
“上古结绳而治,后世圣人易以
书契”。从结绳记事,到录于文书,社会的发展离不开信息记录。小到个人感怀、生活收支,大到
国书布告、历史决议,这些信息都是宝贵的财富,承载着人类文明发展的历史和未来。信息存储
就成为了不同时期人类的共同需求。
数据存储方式的变化史,是人类文明发展史的缩影。从龟甲石刻、竹简纸张,到如今的磁光
电存储,人类物质和精神文明得到了极大发展,人均拥有了超过 1014 比特的信息量。在这个拥抱
大数据的时代,数据规模爆炸增长,现有存储介质逼近密度极限,人类不断开发新的数据存储方
式,DNA 存储就是其中最具潜力的技术之一。
DNA 存储核心优势是存储密度高、存储时间长且维护成本低。美国半导体合成生物学路线图
中提到,DNA 存储的密度潜力是硬盘、磁带等传统介质的 1 千万倍。考古学家也已经证明,DNA 作
为天然的生物遗传信息载体,在特定的自然状态下可以保存几百万到几亿年。这些特质使得 DNA
存储具备了海量数据长期保存的颠覆性优势。
DNA 存储的发展将促进 DNA 合成和测序技术的迭代升级。诚然,当前 DNA 存储的读写成本依
然高昂,但是随着 DNA 合成新技术持续进步,测序走向 Pb 级规模,其读写成本正持续下降。在数
据存储需求的驱动下,DNA 合成和测序新技术将快速成熟和发展,带动产业升级,为低成本 DNA
存储赋能,为生命科学研究助力。
总而言之,DNA 存储是生物技术与信息技术融合的典范。DNA 作为从古至今承载生命信息的介
质,在生物技术与信息技术之间架起了一座桥梁。DNA 存储将是人类师法自然,造福社会的又一
典型。我希望更多不同学科的青年人,响应时代的召唤,进入这个充满潜力的交叉融合领域,为
人类文明的发展贡献力量。
8
基因慧 www.geneclub.net.cn
版权所有 侵权必究
DNA 存储蓝皮书
DNA 存储有望突破大数据存储的瓶颈
杨焕明
中国科学院院士、华大集团理事长
再过一年,就是人类基因组计划完成图发布 20 周年、DNA 双螺旋结构发现 70 周年。在这个
阶段,测序技术成熟服务数以千万孕妇产前筛查、数以亿级的核酸检测后,连同 DNA 合成技术,
推动 DNA 存储研发和应用。它是 BT(生物技术)和 IT(信息技术)的完美融合,将基因科技从医
学拓展到工业以及更广泛的应用市场,造福大众。从这个角度上,基因慧策划的《DNA 存储蓝皮
书》非常有意义。
多年前我参与香山科学会议,和众多同仁探讨 DNA 存储技术。近十年来 DNA 存储技术发展迅
速。一方面,DNA 测序技术快速普惠,DNA 合成的成本下降了三个数量级及以上;另一方面,微米
级芯片对合成的控制达到高通量的目的,包括 George Church、Goldman 和深圳华大生命科学研究
院团队都开发出不同策略的 DNA 存储编码算法。未来如果进一步降低成本,提高编码的适配性和
鲁棒性,有望突破目前大数据存储的瓶颈,赋能人工智能和产业数字化等。
同志们,我们正进入生物技术大放异彩的时代。生命是数字的,DNA 测序和合成正以前所未
有的速度和深度拓展或改变我们对生命的认知,服务医学、农学、工业和大数据等,这是时代赋
予我们的使命,我们生于斯,应加强研产学资连接和协作,不辜负时代,勇立潮头。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
9
DNA 存储蓝皮书
探寻变革性的存储材料——抱有“功成必定有我”的历史担当
樊春海
中国科学院院士、上海交通大学转化医学研究院执行院长
自从诞生以来,人类从未停止过对生命奥秘的探寻。1953 年,沃森、克里克等人共同发现了
DNA 双螺旋结构——这被认为是 20 世纪生命科学领域最重大的发现之一。这一简洁而又优美的结
构的发现,为我们从分子层面揭示了生命遗传过程的本质,引领了诸如中心法则、核酶、基因编
辑等一系列从核酸结构、功能到信息调控的诺贝尔奖成果和重大科学发现,并带动了整个生物技
术领域的发展。
当前,随着互联网、人工智能、5G 通讯等技术的发展和普及,人类已经大步迈进信息和大数
据时代。一方面,高效、快速的信息交互使得人类的生活发生了天翻地覆的变化,由此产生了海
量的数据;另一方面,数据的价值日益凸显,已经上升到了生产要素的高度。如何在未来存储海
量的数据量将是人类所共同面临的重大问题,也代表了国家重大需求。
DNA 分子作为一种亿万年进化产生的超高密度、超稳定的数据存储介质,ATGC 这四个碱基
的不同排列组合构成了多姿多彩的生物学世界背后的规则。经过几代科学家的不懈努力,特别是
人类基因组计划等大科学计划的推动,现在人类已经从认识 DNA 发展到了人为设计、合成和读取
DNA。曾经的遗传密码已经逐渐成为我们手中可以操控和应用的纳米尺度分子材料。在这个意义
上,我们撷取自然进化的智慧,将 DNA 从记录生命遗传信息的分子转化为记录人类文明信息的介
质,已经成为可能,然而挑战巨大。
人类社会正处在一个高度变革的转折时期,我们正在逐步从真实世界转变为真实与虚拟世界
(如元宇宙)共存的二元世界。探寻变革性的存储材料,突破海量数据存储瓶颈,已成为时代的
需求和国家战略所在。我们应心存“功成不必在我 ”的精神,抱有“功成必定有我”的历史担
当,聚集智慧与心力,努力将人类带向 IT-BT(信息技术 - 生物技术)交融的应许之地!
10 基因慧 www.geneclub.net.cn 版权所有 侵权必究
DNA 存储蓝皮书
专家寄语
DNA 存储看起来既遥远又现实。随着研究的不断突破,从原理验证到编码优化,我们已经
看到 DNA 用于数据存储的远大前景。但合成成本、信息失真、兼容性等问题让应用显得不切实
际。但是就在不久之前,当人类基因组刚开始的时候,我们还对着高达三十亿的测序成本望洋
兴叹,可今天成本降低了数千万倍,变得人人可及,精度也不断完善。所以我们有理由相信,
DNA 数据存储,在不太遥远的未来,必然进入各行各业、千家万户。
—— 徐讯 深圳华大生命科学研究院 院长
我是从 90 年代以科学家身份下海创业的。从创业之初,我就确定了 DNA 化学合成作为公
司的主营业务。因为我知道,DNA 合成所产生的引物是大部分生命科学实验应用的食粮。在当
时的大环境下,连普通的引物和测序都要依赖进口高价产品。而我本人和公司对整个行业最大
的贡献我认为就是让中国的科研工作者都能“吃得起”,“吃得饱”,但我们现在要进入一个
新的阶段,就是还要让大家“吃得好”,要建立核心技术实力,拿出更高质量、具有自主知识
产权的好产品。
——王启松 生工生物 董事长
当今世界正处于前所未有的信息爆炸时代,人工智能、5G、无人驾驶汽车等应用无时无刻
地产生海量数据,预计到 2025 年,全球数据量将达到 175ZB。数据爆发式的指数增长速度,
已经超过了当前 IT 存储技术的承载力。DNA 存储作为一项着眼于未来的具有划时代意义存储
技术,正在揭开神秘的面纱,从实验室走向大众视野。国家基因库愿与业界一起致力于 DNA 存
储研发和应用工作,共同推进生命科学和 IT 科技的融合,期待新的突破,共创美好未来!
—曾文君 深圳国家基因库 生物信息数据库主任
版权所有 侵权必究
基因慧 www.geneclub.net.cn
11
DNA 存储蓝皮书
DNA 存储是通过合成生物学的方式把 0、1 转换成碱基,再通过测序解码进行读取;具有
容量大、保存时间长等显著优势。中国、美国和欧洲已经把 DNA 存储列入战略研究方向。2020
年 Twist Bioscience、Illumina、Western Digital、微软研究院等公司和机构联合成立 DNA 数据
存储联盟。由此可见,国家和产业头部公司的重视和着力都将推动技术发展。联川致力于探索
基因技术在各类场景的应用并最终实现产业化,希望与行业内众多优秀企业携手推进 DNA 存储
的发展!
——郎秋蕾 联川生物 CEO
数字信息时代的到来促使大家开始寻找空间更大、运行更稳定、读取更便捷的存储方式。
随着人工 DNA 合成技术的不断发展,DNA 存储凭借存储密度高、存储时间长、占地面积小、维
护成本低等优点,成为解决未来数据存储危机的潜力介质之一,更有望彻底颠覆现今数据存储
模式。擎科生物始终致力基因合成领域的技术开发与落地,公司将充分发挥自身科技创新优势,
与行业内众多优秀企业共同开创 DNA 存储新时代。
——马石金 擎科生物 董事长
海量分布式存储业务需要极低的存储成本来应对快速增长的数据规模,DNA 存储技术具有
存储密度高、电磁干扰少、数据跳变概率低等优势,具有成为极低成本的存储介质的潜力。
——林楠 腾讯云存储 高级产品经理
12 基因慧 www.geneclub.net.cn 版权所有 侵权必究
DNA 存储蓝皮书
报告说明
报告宗旨
本报告为基因慧联合基因科技和大数据存储专家、代表机构及一线人士撰写而成,面向专
业人士免费传播,推动基因科技和大数据存储的科学普及、技术推广、转化应用及创新创业。
面向对象
对 基 因 科 技 和 大 数 据 存 储 有 一 定 基 础 和 兴 趣 的 政 策 制 定 者、 科 研 学 者、 创 业 者、
投资者、教育工作者、产业从业者等专业人士。
内容范围
内容上,本报告围绕基因科技和大数据存储的宏观环境、技术工艺、应用场景和产业发
展来展开;时间上,本报告归纳近年的技术及产业动态信息、专家观点和研究思考,以 20202022 年为主,展望未来;地理维度上,本报告以全球环境为背景和参考,重点着墨中国大陆
地区的市场,旨在传播和启发先进技术的产业化。
更多需求
基于“使连接产生价值,用数据看见未来”的理念,我们尽可能严谨、客观收集信息
和归纳分析;信息源于基因慧旗下 GeneMail 资讯、《大咖论健》、产业信息大数据平台
YourMap®、专家咨询、市场调研及联合撰写团队提供的信息等合规素材。但由于行业特殊性和
信息披露的时效性等因素,内容难免存在不足,信息颗粒度可能无法满足所有场景。如有错漏,
欢迎反馈指正;如需更大范围或更细颗粒度的信息,欢迎联络我们定制行研报告。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
13
DNA 存储蓝皮书
法律声明
本报告为深圳基因界科技咨询有限公司(以下简称“基因慧”)联合合作方的学术研究成
果,旨在推动相关的科技普及、技术推广、转化应用和创新创业。本报告版权归基因慧及合作
机构所有。未经基因慧及合作机构的书面授权,任何机构和个人不得以任何形式使用、复制和
传播本报告的任何部分用于商业目的。学术研究引用时请注明来自基因慧;侵权必究。
基因慧未受聘于任何企业从事此报告研究。本报告不得解释为基因慧专业的医疗决策、产
业咨询及投融资等意见,亦不得解释为基因慧对个别产品、机构评价的观点。读者接收本报告
即视为同意以下声明:任何机构或个人在引用本报告信息时,须对本报告的数据和结果进行独
立调查和判断;由于信息时效性,基因慧对本报告所含信息的准确性或完整性不作任何担保或
保证,且明确声明对任何机构和个人不承担基于本报告决策而产生的任何责任。
14 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:
数据存储现状及 DNA 存储优势
DNA 存储蓝皮书
1.1 大数据时代下数据存储现状及局限
医疗大健康、生物工程、“工业 4.0”等领域的发展带来大数据的繁荣。一方面,互联网、物
联网、医疗健康、生物工程等加速生产大规模数据,5G 数字技术大幅加快数据传输,人工智能赋
能数据挖掘;另一方面,目前的存储介质远远无法满足大数据存储的需求。
图 1:全球数据供需量
(ZB)
消耗量
有效存储量
1050
1000
950
900
850
800
750
700
650
600
550
500
450
400
350
300
250
200
150
100
50
0
2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2026 2027 2028 2029 2030 2031 2032 2033 2034 2035
信息来源:IDC 白皮书:世界的数字化—从边缘到核心,基因慧制图
据 2021 年 IDC 预测,全球数据量 2020 年至 2025 年的复合增长率为 23%,到 2025 年将达到
180 泽字节(1 泽字节 =1024 艾字节,1 艾字节相当于一部 36000 年才能播完的高清视频),预计
2035 年数据量将突破 1000 泽字节。根据全球最大的硬盘制造商希捷(Seagate)的观点:2025 年
预计有 98.29% 的数据由于存储技术和存储规模而无法保存。
总体来说,大数据存储的供应赶不上大数据的生产,主要包括以下几个方面的需求未得到
满足:
16 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
图 2:数据存储的未满足需求
缺乏信息密度更高的存储介质
加剧土地资源、能耗的使用
数据存储能源利用率低,
消耗能源偏高
未满足需求
引发的问题
存储介质的使用年限较
短,抗干扰弱
大容量存储设备的便携性不足
增加数据的迁移和维护成本
数据安全隐患加剧
信息来源:基因慧整理 & 制图
如上图所示,市场缺乏密度更高的存储介质加剧了土地资源的过度使用与能耗过大;存储介
质较短的使用年限增加了数据迁移和维护成本;大型存储设备迁移性不足增添了数据安全隐患。
低成本、高密度、长久保留、低能耗,将是未来数据存储的发展方向。这是大数据时代下数
据存储的需求,同时也是 DNA 存储技术的核心价值。在探讨 DNA 存储技术之前,我们先来了解数
据存储的发展历程、当前现状和具体的局限性。
1.1.1 数据存储的发展历程
回顾数据存储的发展历程,从最早的结绳记事、甲骨文、纸到硬盘、闪存,其核心特点,如
存储密度、容量、使用年限在不断提升,也更加便携、稳定和安全。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
17
DNA 存储蓝皮书
图 3:数据存储的发展历程
约公元前 17 世纪 公元前 11 世纪
文字发明前
纸
甲骨文
结绳记事
1965 年
1971 年
1984 年
2003 年
CD/DVD
软盘
闪存
1932 年
1928 年
1846 年
磁鼓存储器
录音磁带
穿孔纸带
1952 年
1956 年
磁带
硬盘
东汉时期
DNA 存储
信息来源:基因慧整理 & 制图
在数据存储发展的长河中,1846 年的穿孔纸带第一次把数据转变成二进制信息,奠定了早期
计算机的输入系统;1952 年研发的磁带成功延续至今,因其极高的存储密度成为数据冷存储的主
要媒介之一;而 1984 年的闪存第一次将非易失性的特点带入存储,增强了数据的安全性。但自闪
存媒介研发至今,近 30 年未有新型存储研发。直至 2019 年,微软和华盛顿大学发表了 DNA 存储
的原型实验室装置,预计需要 5-10 年才能投入大规模使用。
1.1.2 存储介质的现状
尽管数据存储介质多种多样,但市面上主流的存储介质可以根据存储原理分为三大类,分别
是光盘、磁性存储(硬盘、磁带等)和半导体存储(闪存等)。本蓝皮书讨论的 DNA 存储归类为
新兴存储。
存储介质的核心指标包括读写速度、数据保存年限、消耗电量(能耗)、数据密度等。作为
新兴存储的 DNA 存储读写速度小于 100 比特 / 微秒,数据保存年限可长达 100 年,消耗的电量小
于 10-10 瓦特 / 吉字节,细菌体内数据密度约 1019 比特 / 立方厘米。
18 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
图 4:数据存储的分类
磁性存储
读写速度
1600
比特 / 微秒
>10
保存年限
消耗电量
~0.04
数据密度
~1013
年
瓦特 / 吉字节
比特 / 立方厘米
半导体存储
~3000
>30
硬盘
>10
年
~0.02-0.05
1014
5000-28000
比特 / 微秒
瓦特 / 吉字节
磁带
<100
比特 / 微秒
>100
年
~0.01-0.04
~1016
比特 / 立方厘米
比特 / 微秒
新兴存储
瓦特 / 吉字节
比特 / 立方厘米
闪存
<10-10
~1019
年
瓦特 / 吉字节
比特 / 立方厘米
DNA 存储
信息来源:Extance, A. How DNA could store all the world’s data. 2016, 基因慧制图
目前市场上常见的存储介质包括磁带、硬盘、闪存等,其中硬盘和闪存占据消费级和企业级
产品,而磁带存储多应用于数据冷存储;读写速度最快的是闪存,最高可达 28000 比特 / 微秒;
保存年限最长的是磁带,可超过 30 年;能耗最低的是闪存,最低可达 0.01 瓦特 / 吉字节;与现有
介质相比,DNA 存储技术的优势是使用寿命最长,可达百年,数据密度最大,可达 1019 比特 / 立方
厘米,但也存在一定劣势需要不断研发和优化,包括信息读写速度慢、合成和测序成本高。
表 1:存储介质对比
磁带
硬盘
闪存
读写便捷、成本低、使用
优点
寿命长、能耗低、安全性
存储容量大、价格
高、稳定、价格低、可支
低、存储成本低
持断电存储
缺点
访问速度低
DNA 存储
读写便捷、耗电量
存储密度高、耐用性
低、温度影响小、
高、使用寿命长、能
耐用性高
源消耗低
合成和测序成本高、
耗电高、运行温度
价格偏高、容量偏低
高、噪声偏大
信息读写慢、无法高
效对接现有信息系统
大数据存储、新型数
应用场景
数据冷存储
消费级和企业级产品
消费级产品为主
据加密、分子追踪系
统、分子诊断
生产厂商
IBM、惠普等
希捷、西部数据、
三星、东芝、
Twist Bioscience、
东芝等
海力士等
微软、华大等
信息来源:基因慧整理
版权所有 侵权必究
基因慧 www.geneclub.net.cn
19
DNA 存储蓝皮书
1.1.3 数据存储的局限
基于磁带、硬盘、闪存等存储介质与 DNA 存储的对比,现有存储介质在存储密度、使用寿命、
能源消耗上仍存在着一定的局限。
现有存储介质的存储密度偏低。以磁带存储为例,目前存储密度能达到 1014 比特 / 立方厘米,
而 HDD 硬盘和闪存不及磁带存储,例如 1 泽字节的数据量,即使是磁带存储,也需要 1011 立方毫米。
存储密度的不足将导致高运营成本和建设成本。在能源消耗上,1 泽字节数据量需要约 1000 个艾
字节级数据中心,而每个艾字节级数据中心需要约 7 万平方米的占地面积,200 兆瓦 / 年的功耗,
总存储成本高达 10 亿美元。不仅占地面积、存储体积面临巨大的挑战,能耗、维护成本将是更严
峻的挑战。
使用寿命也是局限数据存储发展的关键因素。在现有存储介质中,光盘的使用寿命为 10-15 年,
HDD 存储和闪存的使用寿命为 5-10 年,磁带存储的使用寿命为 15-30 年;数据存储系统需要定期
清除损坏的数据,并更换故障单元,低使用寿命会导致泽字节数据量的存储需要极高的维护成本,
因此市场需要更加稳定的存储介质来支撑快速增长的数据量。
在能源消耗方面,磁带存储的能源消耗相比 HDD 存储和闪存要小。磁带存储可以通过离线存
储数据,但磁带主要依赖于稀土金属。尽管全球稀土储量丰富,但因为过度开采和跨国进出口贸易,
稀土资源储量正快速下降,磁带存储的解决方案并不能长久。
综上所述,为了满足海量数据的存储的新兴需求,市场亟需变革式的新兴存储介质。特别是
在存储密度、使用寿命、能源消耗、数据安全等因素上进行大幅优化和提升。DNA 存储作为未来
数据存储介质的解决方案之一。一方面,其存储密度是已知存储介质最高,理论可以实现达到的
存储密度为 455 艾字节 / 克。另一方面,由于 DNA 的稳定性,来自 70 万年前的古代 DNA 仍然可
以被测序,存储的时效性可见一斑。
20 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
1.2 DNA 存储的原理及优势
目前主流的 DNA 存储是基于 DNA 的四种碱基(A、G、C、T)来映射 0 和 1,通过信息编码来
进行存储,这是一个数字信号到化学信号的过程。相对传统介质,DNA 存储基于分子流存储信息流,
加上它的非周期性晶体等结构特点以及生物属性,因此 DNA 存储极其稳定且存储密度高。
图 5:DNA 数据存储整体框架
数据编码
数据写入
DNA 合成
测序
体外
数据解码
数据读取
体内
数据储存
信息来源:滕越等,DNA 数据存储技术原理及其研究进展,生物化学与生物物理进展,2021
DNA 存储的概念最早可追溯到 20 世纪 60 年代,美国著名科学家、控制论的创始人诺伯特维
纳(Norbert Wiener)和苏联科学家米哈伊尔内曼(Mikhail Neiman)几乎同时独立提出利用 DNA
可以存储数据的概念。
表 2:DNA 存储的历史
时间
20 世纪 60 年代
研发团队
Wiener、Neiman
存储容量(MB)
—
研发成果
遗传存储器的概念推出
将数字 0 和 1 映射到 DNA 的四个
1988
Joe Davis、哈佛大学
0.000004
1999
奥地利电子音乐节
0.00009
编码来自 Genesis 的文本
2003
太平洋西北国家实验室
0.0001
“这是一个小世界”的部分内容
碱基
版权所有 侵权必究
基因慧 www.geneclub.net.cn
21
DNA 存储蓝皮书
时间
研发团队
存储容量(MB)
研发成果
2005
ATUM
0.0001
诗歌“Tomten”
2009
多伦多大学
0.0002
文本、音乐、图片
2010
J.Craig Venter 研究所
0.0009
合成基因组水印
2012
哈佛大学
0.66
书籍和 JavaScript
2013
欧洲生物信息学研究所
0.74
诗歌、演讲、论文
2016
哈佛大学、Technicolor
22
MPEG 格式压缩电影
2017
微软、华盛顿大学
200
2018
微软、华盛顿大学
400
2019
Catalog 公司
16000
世界人权宣言、音乐视频、种子
数据库
未知
存储 16GB 的维基百科数据
信息来源:基因慧整理
1.1.4 DNA 存储的步骤
现有技术框架下,DNA 存储主要由 6 个步骤构成,包括:编码、合成、保存、获取、测序、解码(部
分 DNA 存储技术不涉及获取步骤)。
1)二进制比特 -DNA 碱基编码
DNA 编码的方法众多。算法上包括固定规则的简单映射编码、Goldman 编码、Grass 编码、
Blawat 编码、DNA 喷泉(DNA Fountain)编码、水印叠加编码等。其中还包括集成多种规则的华
大 YYC 阴阳双编码系统与 Spider-Web 系统、中科碳元的“悟空”编码系统、联川生物研发的 DNA
存储编码系统等。此外,针对 DNA 的生化 - 数字特性,可预计编码方法上还有较大的研究空间。
此处,我们以 Goldman 编码为例说明 DNA 存储编码的基础原理,更多编码算法详可见第二章。
22 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
图 6:DNA 存储的基础原理
DNA
Synthesize
AAGTC
ATGATCTCGTAA
TACTAGAGCA T T
Define a mapping:
mRNA
00=A, 01=T, 10=G, 11=C
AUG AUC UCG UAA
Polypeptide
Met
lle
Ser
DATA: 00 00 10 01 11
STOP
信息来源:Digitaltrend,基因慧整理
2012 年,George Church 教授首次展示通过 DNA 来存储非遗传数据,使用经典的简单映射编
码直接将 A、T、C、G 4 种碱基映射二进制数据,例如:将 00 映射给 A,将 01 映射给 T,将 10 映
射给 G,将 11 映射给 C,基于以上编码,碱基序列“TGCAG”可编码数字串“0110110010”。
上述映射规则是较为简单的一种,可以在确保编码的规则和效率下作多种变形,例如霍夫曼
编码、DNA 喷泉编码。后续的编码算法引入了纠错算法,这对于 DNA 存储信息的准确性起到了关
键作用。
图 7:DNA 编码
B
Simple Transcoding
‘ One to two ’
‘ Two to one ’
0
A or T
1
C or G
00
01
A
10
C
11
G
T
GF Field
C
01011101 10111110
Binary
0101010101
DNA
Bases
ATCGATCG
Nucleotide Triplet
Mapping
‘ Sixteen to nine ’
XYZ
A
T
C
G
0
T
C
G
A
1
C
G
A
T
2
G
A
T
C
01011101
02210
TAGTC
Huffman code
(’Eight to five/six ’)
10 01 11
D
G
Rule 1
C
Option 1
T
Option 2
First three not same
Last two not same
Not identical
10
Option 3
Option 4
A G
C T
G A
C T
Rule 2
1 4 47
0
1
2
3
4
.
.
.
47
Example
Previous Nucleotide
Ternary Digit
A
Recombine
Result Options:
A
G
G C G T C
G
T
‘Forward error correction’
(’Eight to five ’)
信息来源:Ping et.al., Gigascience, 2018
版权所有 侵权必究
基因慧 www.geneclub.net.cn
23
DNA 存储蓝皮书
除了以上映射的编码方法,另一种方法是使每个短寡核苷酸代表一个编码数据单元或符号。
通过碱基合成技术预先合成短寡核苷酸元件库,基于碱基互补配对原则,连接短寡核苷酸以产生
长寡核苷酸或形成长 DNA 双链,更长的 DNA 序列意味着通过更大的数据有效载荷来分摊组装的成本,
从而在面对较大数据量时降低成本。
2)DNA 合成
作为存储介质,DNA 的合成长度决定存储信息碱基利用率。目前,主流的 DNA 合成方法包括
化学合成和生物合成两大类。
其中,化学合成技术相对成熟,以上世纪八十年代发展的固相亚磷酰胺三酯法为代表。目前
基于化学合成 DNA 的新兴技术和工具还在陆续面世,例如电化学芯片合成法、微流体系统、数字
光刻技术和基于分选原理的高通量合成技术等,特别是微阵列(芯片)DNA 合成可实现高通量。
基于微软和华盛顿大学的研究成果,目前合成密度能达到 2500 万 / 每平方厘米,并且有两个数量
级的增长潜力。
以酶促合成为代表的生物合成技术开始于 2010 年中期,目前相关技术尚未成熟,未进入商业
市场,未来的发展前景较大。酶促合成技术可只使用水性试剂,产生更少的副产品,因此更具有
可持续性;其次,酶促合成反应可以通过加速合成实现更高的通量并增加聚合物的长度,从而提
高数据密度,降低存储成本。
3)DNA 保存
表 3:DNA 介质的储存方法
DNA 与碱性
方法
液状
干粉
封装
保存时间
33 年
3—6 年
527 年
109 年
-
-
处理难度
简单
简单
困难
简单
简单
简单
-15℃
常温
常温
-
-80℃
盐混合干燥
非天然核酸
体内存储
-20℃ /
温度
-80℃ /
液氮保存
信息来源:参考郜艳敏等,DNA 信息存储中关键生化方法的研究 . 合成生物学, 2021,基因慧整理
24 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
DNA 介质的长期稳定储存是实现冷数据长期存储的关键,将直接影响基于 DNA 的海量数据存
储硬件设备系统的实现。
现有 DNA 保存包括三种方式:
●
宏观级保存
●
分子级保存
●
体内保存
其中,宏观级保存可以包括将 DNA 介质以液状、干粉、封装、DNA 与碱性盐混合干燥等方式保存。
DNA 分子的物理保存需要考虑容器的成本、容器存储的数据量、封装成本和检索的自动化等因素。
考虑到 DNA 的衰变机制,DNA 会受到紫外线照射、水、微生物、氧气等作用降解,而水分子是最
主要的因素,因此,DNA 介质的长期储存尤其要隔绝水和氧气。
DNA 的分子保存,是将单个 DNA 分子嵌入基质材料中,旨在防止水和氧气接触到单个 DNA 分子,
玻璃等无机材料是目前最适合的材料,但具有较大的加工难度,并且会增加后期的 DNA 分子读取
难度。
相比之下,DNA 体内储存具有较大优势,如低成本精准复制和长久稳定保存,是目前信息存
储的最具潜力的方式。此外,细胞内精密的基因组修复等分子机制可以实现 DNA 介质的耐久性和
稳定性。但体内存储也存在一定的不足,由于细胞接受外源 DNA 物质效率等问题,造成体内存储
密度低于体外存储,且体内储存更加适合长 DNA 片段,具有较高的制造成本。此外大量的人工核
酸序列在细胞内保存的生物风险也是一个需要考虑的关键因素。
4)DNA 测序
DNA 测序是对存储在 DNA 中的数据进行读取的步骤,主要是测定编码数据的 DNA 分子中碱基
(AGCT)的排列顺序。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
25
DNA 存储蓝皮书
图 8:测序技术的发展历史
Sanger 发明 DNA 双脱氧链终止法测序 1977
1981 第一次测定得到人类线粒体基因组序列
人类基因组计划启动 1990
1995 第一次得到完整的细菌基因组:嗜血流感菌
第一次得到完整的真核生物基因组:酿酒酵母 1996
2001 人类基因组计划完成
Roche 发布高通量测序仪 454 GS20 2005
2007 Illumina 发布高通量测序仪 Genetic Analyzer 2
MetaHIT 计划启动研究人类微生物组计划 2008
2011 PacBio 发布单分子测序仪 PacBio RS
ONT 发布纳米孔测序平台:MiniON 2014
2015 华大发布了新一代桌面型测序系统 BGISEQ-500
华大智造发布全球最高日通量的测序系统 DNBSEQ-T7 2018
2019 人类微生物组计划第二阶段(HMP)完成
华大智造发布入门级测序系统 DNBSEQ-E5 2021
信息来源:基因慧整理 & 制图
自 1977 年 Sanger 发明双脱氧链终止法,测序技术开始了高速的发展。随后在 1998 年,随着
毛细管电泳仪的出现,科学家们实现了测序技术的通量化和自动化。这标志着一代测序技术的成
熟和基因组学时代的到来。新一代测序(NGS,Next Generation Sequencing)于 2005 年出现,这
一技术实现了从几十万条到几百万条的核酸分子的大规模并行测序。2011 年,基于长片段和直接
测序的单分子测序技术开始商业化。目前,DNA 存储相关研究的测序工作大多在 Illumina 平台、
MGI 平台以及单分子纳米孔 ONT 平台实现。
26 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
表 4:不同测序技术的比较
分类
Sanger
测序仪
高通量
测序仪
代表企业
测序原理
Thermo Fisher
Sanger 测序法
优点
缺点
准确率高且读长较长,能
很好地处理重复序列和多
通量小且成本较高
聚序列
Illumina
可逆末端终止法
通量很高
Thermo Fisher
连接测序法
通量高,实际成本低
Roche
焦磷酸测序法
二代测序中读长最长
机器造价昂贵
测序时间长,读长短,成本高,
碱基组拼接困难
难以处理重复和多聚区域
上机文库为环状文库,如采用其
MGI
联合探针锚定
高通量、高准确性、
聚合测序法
低重复序列率(低 Dup)
他商业试剂盒构建了线性文库,
则需采用通用文库转换试剂转换
成兼容华大测序平台的单链环状
DNA 文库
单分子
测序仪
PacBio
ONT
单分子荧光测序
单分子纳米孔
测序
超长读长
长读长
准确率低、仪器昂贵
准确率低
信息来源:基因慧整理
5)DNA 碱基 - 二进制比特解码
DNA 测序完成后,通过 DNA 解码获得 DNA 存储的原始信息。基础原理如下:
●
通过检索选择目标 DNA 再使用映射到编码过程中所生成特定数据项的引物和 PCR 扩增,获
得目标 DNA,再通过测序仪获取 DNA 对应的序列。
●
通过映射规则将序列转码成原始的 0 和 1 字节信息。
关于 DNA 存储原理的更多详细内容,请参考本蓝皮书的第二章。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
27
DNA 存储蓝皮书
1.1.5 DNA 存储的优势
图 9:DNA 数据存储和解读的流程
信息写入
原理模型
编码
10110110...
AGTACT...
解码
技术流程
信息编码
合成
测序
信息读取
数据写入
DNA 片段
介质保存
可靠读出
101101...AGT...
应用模式
位点 1
位点 2
位点 3
位点 4
硬盘模式
光盘模式
磁带模式
其他模式
信息来源:韩明哲等,DNA 信息存储,生命系统与信息系统的桥梁,合成生物学,2021
作为未来数字存储变革性材料,相较其他介质,DNA 存储的优点包括:
●
存储密度更高(可达 1019 比特 / 立方厘米)
●
使用寿命更长(最长可达百年)
●
维护更加简单(维护成本几乎为零)
●
能源消耗更少(消耗电量低于 10-10 瓦特 / 吉字节)
与市场常用的存储介质相比,DNA 存储的密度最高;如果在 IBM 的 LTO-9 型号磁带放满 DNA 片段,
DNA 存储的容量是 LTO-9 磁带容量的 115,000 倍。
28 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
图 10:DNA 和 LTO 磁带存储密度的对比
糖 - 磷酸骨架
碱基对
105mm
腺嘌呤
胸腺嘧啶
胞嘧啶
鸟嘌呤
1mm
1mm
Thymine
(T)
1mm
102mm
22mm
LTO-9 型号磁带放满
DNA 片段 , 将容纳约
2,000,000TB 的数据
1mm
1mm
1mm
1 平 方 毫 米 的 DNA
片 段 可 以 存 储 9TB
的数据
单个 DNA 碱基占据
1 立方纳米
信息来源:DNA Data Storage Alliance 官网,基因慧整理
其次,DNA 的耐用性更高。DNA 可以在常温、干燥的大气中保存数千年。斯德哥尔摩古遗传学
中心等机构的科学家们对埋藏在西伯利亚冻土层中一百多万年的猛犸象牙齿进行分析,得到最古
老的 DNA 测序信息。
相比于数据中心的能耗,DNA 存储消耗的电量在 10-10 瓦特 / 吉字节,这已经是现有存储介质
中消耗电量最低的,占用的空间基本忽略不计。而 1 个艾字节级数据中心整体存储能耗约 200 兆瓦,
占约 7 万平方米的土地面积,媒介使用寿命为 5 年,10 年的总存储成本为 10 亿美元;此外,相比
于废弃的硬盘和磁带,DNA 分子可以进行完全生物降解对环境更友好。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
29
DNA 存储蓝皮书
1.3 DNA 政策支持与重点研发计划
在全球大数据存储远不能满足大数据生产和使用的需求的情况下,各国近年非常重视 DNA 存
储的技术研发和产业布局,包括编码算法、集成系统以及支撑技术 DNA 合成与测序等。
图 11:相关资助 DNA 合成与存储的政策
中 国科协:60 个重大科学问题以及重大
◆
工程技术难题
◆
IARPA:分子信息存储
◆
美国半导体产业协会等:《半导体十年计划》
深 圳先进院:2020 年度牵头获批 7 项国家
◆
NIST+SRC:《半导体合成生物学路线图》
◆
2017 年
2018 年
2019 年
2020 年
欧盟:“地平线 2020”
美 国半导体产业协会:《半导体
◆
研究机遇愿景和指南》
◆
◆
科技部重点研发计划项目
DARPA:分子信息学
◆
2021 年
《中华人民共和国国民经济和社会发展
◆
NSF:用于信息存储和检索的半
第十四个五规划和 2035 年远景目标纲
导体合成生物学(SemiSynBio-II)
要》新设立“BT 与 IT 融合”专项:
NSF+SRC+IARPA:针对信息处
◆
理和存储技术的半导体合成生物
学(SemiSynBio)
信息来源:基因慧整理
美国作为全球最早布局 DNA 存储技术研发的国家之一,自 2017 年,颁布多项国家政策推动
DNA 存储发展。
表 5:美国地区 DNA 存储政策解读
日期
2017/03
2017/03
2017/05
发布机构
政策
研究主题
美国半导体行业协会(SIA)
《半导体研究机遇:行业愿景
推动人工智能、物联网、超级
和半导体研究联盟(SRC)
与指南》
计算等未来创新技术发展
分子信息学计划
推动数据存储、检索和处理
针对信息处理和存储技术的半
促进合成生物学和半导体行业
导体合成生物学(SemiSynBio)
协同作用,增强信息处理和存
项目指南
储能力
美国国防部先进研究计划局
(DARPA)
美国国家科学基金会(NSF)
30 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
日期
发布机构
2018/05
情报高级研究计划局(IARPA)
分子信息存储(MIST)项目
2018/10
半导体合成生物学联盟
半导体合成生物学路线图 2018
2019/11
美国国家科学基金会(NSF)
2020/02
美国国家科学基金会(NSF)
2020/10
政策
半导体行业协会 SIA 和半导体
研究公司(SRC)
研究主题
开发 DNA 数据存储的原型,减
少物理存储空间、成本和能耗。
制定包含基于 DNA 的存储技术
的发展目标。
用于信息存储和检索的半导体
推动合成生物学和半导体行业
合成生物学”
(SemiSynBio-II)
的协同作用
进一步推动合成生物学和半导
SemiSynBioII 期的项目招标指南
体行业的协同作用
寻找内存和存储器的解决方案
半导体十年计划
并鼓励开发基础新存储技术
(DNA 存储等)
信息来源:基因慧整理
尽管中国 DNA 存储技术起步相比其他国家要晚,但我国高度重视 DNA 存储技术的研发和创新,
并布局了全链条 DNA 存储核心技术,包括 DNA 编码、DNA 合成、DNA 测序等。
表 6:中国地区 DNA 存储政策解读
日期
发布机构
政策
研究主题
2018
中国科学技术协会
60 个重大科学问题以及重大工程技术难题
推动 DNA 存储技术的创新和突破
DNA 存储过程中多方协同操作和安
2020
科技部
7 项国家科技部重点研发计划项目
全性问题,提出混合加密方法和
增量编码技术。
2021
国家发改委
中华人民共和国国民经济和社会发展第
十四个五规划和 2035 年远景目标纲要
加快布局包含 DNA 存储等前沿技
术、加强信息科学与生命科学、
材料等基础学科的交叉创新。
信息来源:基因慧整理
中国在 2018 年的《60 个重大科学问题以及重大工程技术难题》政策中专门设立 DNA 存储的
版权所有 侵权必究
基因慧 www.geneclub.net.cn
31
DNA 存储蓝皮书
相关项目:包括高通量脱氧核糖核酸 (DNA) 合成创新技术及仪器研发、使用合成 DNA 进行数据存
储的技术研发。
在《“十四五”国家重点研发计划“生物与信息融合 (BT 与 IT 融合 )”重点专项 2021 年度
项目申报指南》的相关项目:
●
DNA 分子信息存储的高加密性编码与信息安全体系研究
●
基于多类型生物分子的超高密度信息存储技术研发
●
大规模可寻址可控催化 DNA 合成技术研发
●
超高通量单分子晶体管测序技术研发
欧盟地区未明确出台与 DNA 存储相关的政策文件,但欧盟对 DNA 存储的支持大多通过资金赞助。
其中在地平线 2020 计划中提到:
●
资助 Eurecom、DNA 存储初创企业 Helixworks、法国国家科学研究中心进行深入研究
●
资助 OLIGOARCHIVE 项目,旨在研究智能 DNA 存储系统,涉及存储全过程,包括编码、合成、
存储、解码等全过程
除了美中欧地区,也有部分国家参与 DNA 存储和合成生物学领域的行动。比如日本,澳大利
亚等。
表 7:其他地区资助 DNA 合成和测序解读
日期
国家
发布机构
2005
日本
细胞合成研究协会
2016
日本
丰田汽车公司、DNA 研究所
2019
日本
国际合成生物设施联盟(GBA)
推动合成生物学发展
2021
澳大利亚
联邦科学与工业研究组织
创建合成生物学科学平台旨在支持生物、科
(CSIRO)
技等多行业创新
信息来源:基因慧整理
32 基因慧 www.geneclub.net.cn 版权所有 侵权必究
相关行动
为合成生物学提供资金补助
下一代基因测序仪的研究,开发低成本、高
效 GRAS 技术
一、需求:数据存储现状及 DNA 存储优势
1.4 国内外研发进展
目前 DNA 存储技术处于早期,DNA 存储研发中心和技术研发量快速增加,且研究论文发文量
和专利数量也大幅增长。在国家及地区方面,美国、欧洲和中国已经高度重视 DNA 存储技术,美
国在 DNA 存储技术的专利研发和 DNA 存储相关论文上占据绝对优势。
图 12:2001-2020 年公开的 DNA 合成与存储专利数量、代表性专利权人及合成成本的变化
欧洲专利局 中国 日本
专利公开量 / 件
美国 基于微阵列的合成
带来的成本下降
酶促从头合成法或在
未来带来成本大幅下降 ?
企业(平台)示例
合成成本 / 美元
固相亚磷酰胺合成法
改进带来的成本下降
信息来源:陈大明等,从全球专利分析看 DNA 合成与信息存储技术发展趋势,合成生物学,2021
DNA 存储的研究论文发文量逐年递增,最早的 DNA 存储相关的论文于 1961 年发表,随后在
1990 年发文量突破 100 篇,并在 2021 年发文量达到 636 篇,预示着 DNA 存储技术得到广泛的社会
关注及认可。截至 2022 年 3 月,2022 年 DNA 存储的发文量已达到 162 篇。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
33
DNA 存储蓝皮书
图 13:DNA 存储的技术发展进程
1965
Science、Nature 期刊提出概念“在 DNA 中存储少量信息”
2012
哈佛医学院、欧洲生物信息中心首次在寡核苷酸池存储超过百 KB 数据
2015
苏黎世联邦理工学院引入 RS 纠错码
2016
德州大学奥斯汀分校、华盛顿大学、微软公司联合研发存储信息“随机访问”技术
2017
2018
2019
哥伦比亚大学引入喷泉码,逻辑密度达 1.57bits/nt
哈佛医学院运用 CRSPR 技术将视频写入大肠杆菌菌群
华盛顿大学、微软公司 DNA 存储技术首次突破 200MB 存储容量
以色列理工学院简并碱基提高逻辑密度,>2bits/nt
华盛顿大学、微软公司三代纳米孔测序技术读取 DNA 组装长链
2019
Catalog 公司利用独创的 DNA 写入技术,存储 16GB 的维基百科数据
2020
哥伦比亚大学,苏黎世联邦工学院 首次提出了万物 DNA 的概念
2021
天津大学构建首个存储信息的人工染色体
清华大学 开发了基于镜像 DNA 的信息存储技术
伊利诺伊大学 研发了 DNA 数据存储专用的扩展分子字母表
2022
中国科学院天津工业生物技术研究所创建了二步循环酶促 DNA 合成技术
深圳华大生命科学研究院发表了独创的“阴阳”双编码技术,实现了稳定高密度的 DNA 存储
信息来源:基因慧整理
目前,国外学者和产业研究机构正在积极开展 DNA 存储技术研发,举例如下:
2022 年,伊利诺伊大学厄巴纳、贝克曼研究所研究人员组成的团队在 Nano Letters 上报告了
一种专为 DNA 数据存储开发的扩展分子字母表,这一拓展分子字母表可以实现 DNA 数据存储密度
2 倍左右的提升,同时提升数据写入的速度,以及降低数据记录的延迟。
2022 年 , 华盛顿大学研究团队提出一种从复杂寡核苷酸库中高效、选择性地检索寡核苷酸的
组合 PCR 方法,他们的方法为扩大 DNA 数据存储系统提供了一条可行的途径,并且在访问特定目
标寡核苷酸时,可以设计自己的引物区域且具有更广泛的实用性。
2021 年,微软研究院的研究团队提出一种比以前快 1000 倍的芯片编写合成 DNA 的新方法,
允许更高的写入吞吐量,从而降低与写入内容相关的成本。
2021 年,佐治亚理工学院 (GTRI) 的研究团队设计一种微芯片,可以显著提高以 DNA 形式写入
数据的速度,该团队预计将比当前的 DNA 存储技术提高 100 倍。
34 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
2020 年,哥伦比亚大学联合苏黎世联邦工学院发布了一项最新技术:通过 3D 打印制作斯坦
福兔,并且将兔子的三维结构数据以双链 DNA 结构形式内置于打印材料中。通过编码和解码,这
只 3D 打印的兔子模型实现了其自身数据的 DNA 存储和传递。该技术验证了万物皆可实现 DNA 存储
的理论。
国内市场起步较晚,但近年发展迅速,也获得政府、科研院校及产业机构对 DNA 存储的编码
算法、DNA 合成设备、微流控芯片等投入及研发。重大进展举例如下:
2022 年,中国科学院天津工业生物技术研究所在酶促 DNA 合成方面取得重大突破。研究团队
利用改造获得的合成酶创建了二步循环酶促 DNA 合成技术,合成 DNA 的平均准确率高达 98.7%,与
商业化的 DNA 化学合成法准确率相当,具有巨大的应用前景。
2022 年,北京大学的研究团队构建了一种 DNA“ 纳米弹弓”, 通过对纳米机器进行远距离
DNA 别构信号转导和精细调控,在 100nm 尺度的自组装纳米机器上实现了别构分子信号隔空传递,
以及 15nm 单纳米颗粒的响应释放,为 DNA 存储中的数据处理提供了新思路。
2022 年,上海交通大学研究团队设计一种基于开关电路的 DNA 计算方案,通过集成多重传感
和逻辑分析,自动将检测到的基于单核苷酸突变(包括插入、缺失和 SNP)的信息与表型结果相关联,
为临床诊断和指导个性化用药提供了一种分析细微分子信息的新模式。
2021 年,天津大学研究团队,基于酵母基因组合成技术,成功设计并构建了专门用于数字信
息存储的人工酵母基因组,实现了现在为止最大体量的细胞内信息存储,为结合全链条的 DNA 大
片段合成与人工信息细胞存储奠定了技术基础。
2021 年,东南大学的研究团队改进了传统化学合成方法,运用电化学方法,将东南大学“止
于至善”四个字编码为 DNA 序列并存储与电极上,随后并成功读取。在未来,刘宏团队计划摆脱
对液体试剂的依赖,研发全固态的 DNA 存储设备。
2021 年,清华大学的研究团队合成了分子量达 90 kDa 的大型镜像蛋白质:镜像 PfuDNA 聚合酶,
利用该高保真镜像聚合酶组装出千碱基长度的长链镜像 DNA,并开发了基于镜像 DNA 的信息存储
技术。
2020 年,深圳华大生命科学研究院与天津大学团队利用完全自主研发的 DNA 合成、测序以及
编解码技术,实现了对《开国大典》视频资料的 DNA 存储应用示范,该成果也入选了“十三五”
科技创新成就展。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
35
DNA 存储蓝皮书
图 14:DNA 存储技术领域发文量
700
600
500
400
300
200
100
0
1961
1971
1981
1991
2001
2011
2021
信息来源:PubMed,基因慧整理 & 制图
据中国科学院成都文献情报中心分析,美国在 DNA 存储研究中起步较早,基于 DNA 存储技术
领域文献发表数量,前十位研究机构中有 6 家来自美国,中国唯一一家入选机构中国科学院排名
第七。
表 8:DNA 存储技术领域发文量排名前 10 位的研究机构
排名
研究机构
发文量 / 篇
被引频次总计 / 次
1
加州大学系统
39
1575
2
法国国家科研中心
20
905
3
哈佛大学
16
865
4
麻省理工大学
16
544
5
苏黎世联邦理工学院
14
202
6
伊利诺伊大学
14
308
7
中国科学院
13
230
8
华盛顿大学
13
213
36 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
排名
研究机构
发文量 / 篇
被引频次总计 / 次
9
美国能源部
13
269
10
微软研究部
12
188
10
德国亥姆霍兹联合会
12
386
信息来源:宋琪等 . DNA 存储技术国际发展态势分析 . 世界科技研究与发展 . 2020
其次,在专利数上,据中国科学院上海生命科学信息中心分析,美国、欧洲专利局、中国是
目前全球在 DNA 合成与存储领域中最为活跃的三个地区,美国、欧洲因行业起步早而在专利数上
有一定的领先地位,中国则与其他国家合作研发中较为活跃。近十年来,专利布局保护的课题也
从寡核苷酸合成转变到多核苷酸合成,酶促合成的专利逐渐增加。
图 15:DNA 存储技术专利来源国家 / 地区分布
● 美国 , 144, 58%
● 中国 , 48, 48.19%
● 法国 , 10, 4%
● 日本 , 10, 4%
● 韩国 , 9, 4%
● 德国 ,6, 2%
● 英国 ,5, 2%
● 其他 ,18, 7%
信息来源:宋琪等, DNA 存储技术国际发展态势分析, 世界科技研究与发展,2020
另外,美国是 DNA 存储技术专利申请最重要的技术保护市场地,其次为中国和欧洲地区、韩
国和日本等。据中国科学院上海生命科学信息中心分析:全球有 58% 的专利来源于美国,是目前
DNA 存储技术专利主要来源国家,其次是中国(19%)、法国、日本、韩国等。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
37
DNA 存储蓝皮书
1.5 市场容量和投融资
由于超高密度、极其稳定、超长期存储等特点,同时基于分子流代替介质存储信息流,DNA
存储可真正实现 BT 和 IT 的融合,其中 BT 包括分子材料、分子诊断、基因治疗、生物安全等;
IT 包括通信、存储、算法、DNA 计算等。目前市场上参与研发 DNA 存储及其配套措施的企业有:
Twist Biosciences、DNA Script、微软、西部数据、MGI、联川生物、生工生物、擎科生物、腾讯、
华为等。
1.5.1 DNA 存储的市场容量
DNA 存储的应用还在早期,但是由于以上的技术特点、BT 和 IT 的融合、有极其广阔的应用空
间。包括:
●
新型 IDC(Internet Data Center)模式
●
新型数据信息加密
●
分子标签
●
基于 DNA 计算的分子诊断
基于 DNA 的稳定性及超长期使用寿命等优点,DNA 存储将改变 IDC 的现状。根据信通院、中商
产业研究院相关数据,2020 年中国 IDC 市场规模为 1168 亿元,中国市场约占据全球规模的 10%,
2020 年全球 IDC 市场规模约为 11680 亿元。按照 DNA 存储预计在 2026 年实现部分商业化、且以 5%
的市场渗透率估算,基因慧预计 2026 年,DNA 存储的数据存储市场规模将达到 1585.52 亿元。
除了数据存储,新型数据加密市场也具有 DNA 存储的应用潜力。在全球数字化转型、信息化
程度的加深、信息损失的潜在风险增加等背景下,网络安全市场实现了快速增长。根据《IDC 全
球网络安全支出指南 , 2021V1》报告,IDC 预测 2021 年全球网络安全为 9133.92 亿元,2019 年至
2024 年复合增长率为 9.41%。按照 DNA 存储预计在 2026 年实现部分商业化、且以 1% 的市场渗透
率估算,基因慧预计 2026 年 DNA 存储的数据加密市场规模为 149.55 亿元。
精准医学的发展产生了新的标签化和溯源的需求。而 DNA 作为生命体最稳定的信息存储载体,
具有无限的信息编码能力与指纹的特性,是最好的信息标签。根据 BBC Research 的数据显示,
2021 年全球精准医学的规模在 7638 亿元,按照 DNA 存储预计在 2026 年实现部分商业化、且以 1%
的市场渗透率估算,基因慧预计 2026 年,DNA 存储应用为分子标签的市场规模为 150.46 亿元。
基于 DNA 计算的分子诊断目前尚处于早期研发阶段,因此,本文并没有将分子诊断的规模计
算在其中。
38 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
图 16:2026 年 DNA 存储市场分类
● 新型 IDC, 84%
● 网络安全 , 8%
● 分子标签 , 8%
信息来源:基因慧整理 & 制图
综上所述,基因慧按照 DNA 存储预计在 2026 年实现商业化的前提下,全球 DNA 存储 2026 年
至 2030 年的复合增长率为 21.46%,预计行业规模将从 2026 年的 1885.54 亿元增长到 2030 年的
4103.29 亿元。
1.5.2 DNA 存储企业的投融资概况
DNA 存储是生物技术和信息技术融合的典范,更是合成生物的重要应用场景之一,在研发方
面需要大量资本投入(特别是芯片合成技术等)。资本在 DNA 存储投融资方面目前以国外资本表
现较为突出,国内资本较为保守。
2002 年以来,DNA 存储的基础研究发展迅速,资本已经开始关注相关研究结果;在 2011 年,
应用开发也得以快速发展,小部分资本开始进行投资;在 2015 年,产业投资快速发展,融资额接
近 10 亿美元;在 2021 年,国家以及社会资本开始大幅度资助或投资合成生物学行业,融资额已
达到 89 亿美元。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
39
DNA 存储蓝皮书
图 17:2012-2021 年合成生物学企业融资额
融资额(亿美元)
100
89
90
80
78
70
60
50
40
38
31.2
30
20
18
10
8.81
3.74
9.86
12.92
4.63
0
年份 2012 2013 2014 2015 2016 2017 2018
2019 2020 2021
企业创新案例
信息来源:基因慧整理
DNA 存储吸引了一大批投资机构和企业。企业融资来开发降低 DNA 合成成本的方法,并推动
DNA 存储实现商业化。在 2012-2021 年期间,合成生物学企业融资额从 3.74 亿美元快速增长至 89
亿美元,CAGR 为 42.22%,其中 64% 的企业专注于 DNA 合成领域。
表 9:国外 DNA 存储相关企业近 3 年融资额统计
公司
融资时间
融资额
融资轮次
Ansa Biotechnologies
2022/04
6800 万美元
A轮
Molecular Assemblies
2022/03
2580 万美元
B轮
Cache DNA
2022/03
25.6 万美元
Pre-Seed 轮
DNA Script
2022/01
2 亿美元
C轮
Catalog
2021/09
3500 万美元
B轮
Iridia
2021/03
2400 万美元
B轮
Catalog
2020/09
1000 万美元
A轮
Ansa Biotechnologies
2020/09
920 万美元
种子轮
40 基因慧 www.geneclub.net.cn 版权所有 侵权必究
一、需求:数据存储现状及 DNA 存储优势
公司
融资时间
融资额
融资轮次
Evonetix
2020/03
2300 万美元
B轮
Molecular Assemblies
2019/10
1220 万美元
A轮
Ginkgo Bioworks
2019/09
2.9 亿美元
E轮
DNA Script
2019/05
3850 万美元
B 轮
信息来源:基因慧整理
从近三年企业融资数据、融资轮次来看,DNA 存储行业仍然处于早期阶段。
国外 DNA 存储代表企业有 DNA Scrpit、Iridia、Molecular Assemblies、Catalog、Ansa Biotechnologies、
Customarray 等,其中国外 DNA 存储代表企业关注的方向有酶促 DNA 合成、DNA 编码算法、化学合成等。
国内 DNA 存储代表企业有华大、擎科生物、联川生物、生工生物、腾讯云、中科碳元、密码子、
华为云等。其中在细分方向上,国内代表的融资企业专注于微阵列 DNA 合成,DNA 化学合成,DNA
编码算法等。
总体而言,通过国内外融资赛道分析,目前 DNA 存储行业的难点仍然在于 DNA 合成领域,如
何降低合成成本以及提高合成的效率是资本市场重点关注方向。
表 10:国内 DNA 存储代表性企业近 3 年融资额统计
公司
融资时间
融资额
融资轮次
擎科生物
2022/01
近 2 亿元
A轮
密码子科技有限公司
2022/01
数千万元
Pre-A 轮
2021/11
近亿元
C轮
2020/06
1.15 亿元
B轮
2021/08
数千万元
天使轮
2022/05
数千万元
天使 + 轮
2021/07
数千万元
天使轮
2021/06
近亿元
A轮
2019/08
数千万元
天使轮
联川生物
中科碳元
芯宿科技
迪赢生物
信息来源:基因慧整理
版权所有 侵权必究
基因慧 www.geneclub.net.cn
41
DNA 存储蓝皮书
美国、欧洲和中国对于 DNA 存储的投资方式和资助特点有很大不同,根据元英进院士团队的
分析,有以下特点:
●
美国具备多层次资助体系,包含 DARPA、IARPA、NSF 和社会资本
●
受益于多层次资助体系,美国在 DNA 存储行业发展中占据绝对优势
●
中国地区以研发为主,社会资本投入低,政府出台相应政策鼓励研发 DNA 存储技术
●
欧洲主要依靠地平线 2020 和 2021 计划来支持 DNA 存储行业
42 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:
DNA 存储的技术流程与进展
DNA 存储蓝皮书
2.1 DNA 存储系统简介
从 1964 年开始,利用生物 / 化学大分子作为信息存储介质的思想开始萌芽;2012 年开始进入
实质研发阶段。可用于信息存储介质的生物 / 化学大分子包括 DNA、蛋白质、代谢化合物、聚合体
高分子化合物等。
信息存储系统最重要的步骤是信息的写入与读取。尽管蛋白质、代谢化合物、聚合体高分子
化合物的序列合成已可以部分实现,但序列合成与信息读取(依赖于高分辨率的质谱技术)的成
本与效率均阻碍了下游应用普及。相比之下,DNA 分子的合成与测序技术相对更成熟,大部分装
备已商业化。因此, 基于相对低成本和规模化等巨大潜力,目前全球科学家和工业巨头代表正大
力推动 DNA 作为信息存储介质。
尽管 DNA 存储从本质上均是将数字文件的二进制编码转换为 DNA 碱基的编码,但是不同系统
的技术路径有较大差异,本蓝皮书重点讨论的是依赖 DNA 合成及测序的 DNA 存储系统,部分新兴
技术及体系将在第四章展示。整体上,DNA 存储系统是在体内或体外合成可以编码数字信息的 DNA
序列,并能进行稳定存储、读取和访问原始信息的系统。DNA 存储全流程一般可分为 6 个主要步骤,
包括编码、合成、保存、获取、测序、解码。
1)编码:将数字文件中的二进制数据提取出来,并按一定规则转换成为 DNA 碱基序列(包括
但不限于自然碱基)。
2)合成:通过化学原理或生物酶法原理,利用柱式合成、点阵芯片、半导体芯片等方式根据
编码步骤获得的 DNA 序列进行从头人工合成。
3)保存:通过体外溶液 / 干粉、活细胞内、不同类型媒介封装等方式,对携带信息的海量
DNA 分子进行长期稳定存储。
4)获取:通过利用如多重 PCR、生物素 - 亲和素序列特异性磁珠捕获等方式,完成全部或部
分编码 DNA 分子的获取,用于下一步数据恢复。
5)测序:将获取的 DNA 分子通过 Sanger、高通量测序、单分子等方式进行 DNA 分子序列测定。
6)解码:对测序获得的 DNA 序列进行生物信息分析,根据编码规则对 DNA 碱基序列进行解码
并得到原始数字文件的二进制数据,最终实现信息恢复。
44 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 18:DNA 存储系统流程举例
CTCG
体外溶液
↓↓↓
011010110
解
码
数字数据
001011100
Sanger 测序
编写
存储
体外
检索
读取
体内
提取二进制数据
化学原理或生物酶
法原理,人工合成
DNA 序列
随机访问
NGS 测序
干粉活细胞
单分子测序
信息来源:参考 Ceze et al., Nature Reviews Genetics, 2019,基因慧整理
特别值得一提的是,在 DNA 存储的全流程中的各个技术分别处于不同的发展阶段。
其中,信息编码(解码)、DNA 合成、DNA 分子保存(封装)以及 DNA 测序均已完成了原理验证,
并在效率、成本等方面不断改进突破。针对存储系统的功能模块,目前已有利用分子生物学技术、
纳米技术及微流控技术等实现如检索、修改、删除等功能,但相较而言还处于早期发展阶段。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
45
DNA 存储蓝皮书
2.2 信息编码(比特信息转换为 DNA 序列)
2.2.1 信息编码概述
从二十世纪二十年代起,随着通信技术的兴起,信息论思想开始萌芽,1948 年香农在贝尔系
统技术杂志发表了《通信的数学理论》后,信息论才真正成为一门学科理论。信息论的基础包含
应用数学、电子学和计算机科学,涉及了信息的量化、存储和通信等等,其应用也已拓展到很多
其他领域,如统计推断、密码学、分子编码等。信息论的发展也促进了计算机、互联网等现代信
息技术的发展。在 DNA 存储中,信息编码方法开发也在香农信息论的框架下快速发展。
自 2012 年美国哈佛大学 George Church 团队首次验证了规模化 DNA 存储的概念,每年与 DNA
存储信息编码方法相关的研究文献逐年递增。研究思路主要聚焦于提升信息密度、生物化学约束
的兼容性、错误纠正、不同存储功能适配性(如信息的随机读取、搜索、预加载等)以及安全性等。
1)读写生化技术的兼容性:不同于计算机的电信号,不同 DNA 序列的生物化学操作在处理某
类型的 DNA 序列时可能会出现反应低效或失效的情况,从而影响原始存储信息的有效恢复。因此,
编码算法的重要性能是在保证较高编码效率的同时,提升所生成的 DNA 序列对现有合成与测序生
化技术流程的兼容性,例如缩短序列中的单碱基重复(Homopolymer)序列,避免潜在二级结构生
成,保持序列 GC 含量适中等。
2)错误识别与纠正:在 DNA 分子的合成、保存和测序等涉及的生化操作中,不可避免地会被
引入错误。错误类型包括 DNA 序列中位点的突变、插入和删除,片段的删除以及整条分子的丢失。
这要求编码算法通常会自带纠错性能或额外加入纠错编码,以达到错误发现、定位及纠正的目的。
3)存储功能适配性:为了完成某些特定的存储功能,对编码算法生成的 DNA 序列之间存在额
外要求。例如,为实现信息模糊搜索的功能,信息越相近的 DNA 序列应该存在更多的相似性,这
使得相近信息所对应的 DNA 序列可进行分子杂交。此外,某些特殊情况下,会要求 DNA 序列形成
某种特殊结构,使其不易被读取,从而满足防止恶意复制或加密的需求。
2.2.2 现有 DNA 存储的信息编码方法简介
现有已发表的编码算法的工作大致可分为两类:
第一类为基于受限的基本映射关系的编码算法,包括但不限于 Church 编码算法、Goldman 编
码算法、Grass 编码算法、Blawat 编码算法等。这些编码算法在考虑单碱基重复和 / 或其他的约束
要求下确定了比特与受限碱基之间的映射规则。通过牺牲一定的编码信息密度,利用固定映射规则,
如 01011001 只能对应 TCATG,避免了出现单碱基重复的可能性。
第二类为在基本映射关系基础上增加筛选过滤步骤的编码算法,包括 DNA Fountain 喷泉码和
46 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
Yin-Yang 双编码算法,利用文件中二进制信息片段的组合多样性,生成更多不同的 DNA 序列。在
完成基本映射编码后,会针对生成 DNA 序列进行生化约束条件下序列筛选过滤。因此,由这类编
码生成的 DNA 序列必然会完全满足预先设定的生化约束条件,如 GC 含量、单碱基重复、二级结构
自由能等。
表 11:编码算法的工作类别
优势
劣势
固定规则的编码
编码和解码的耗时、转码率稳定
引入条件过滤机制的
理论上可以满足任意生化约束条
编码
件。
只能面向简单的生化约束条件。(e.g. 无法引入比
如序列自由能这类生化限制)
单一方法的编解码耗时、转码率可能不稳定。
(e.g. 受到输入文件二进制特征以及预设生化约
束条件的影响。)
信息来源:深圳华大生命科学研究院整理
2.2.2.1 Church 编码算法
2012 年,George Church 团队首次验证了规模化 DNA 存储的概念,并估计了 DNA 存储的理论
存储密度(5.5 Pb/mm3 或 455EB/g)。
该团队率先提出了“比特 - 碱基”的简单编码过程,即 Church 编码算法。如下图所示,比
特于碱基的映射关系为:0-A/C,1-G/T。因此,在编码过程中,碱基 A 和 C 之间,碱基 G 和 T 之
间可以等价替换,通常用随机选择方式完成。
图 19:Church 编码算法示例
二进制序列
DNA 序列
1
G
1
T
1
G
1
T
0
A
C
G
T
0
0
1
1
随机选择
A
信息来源:参考 Church, G. M. et al., Science, 2012
考虑到单碱基重复会导致 DNA 序列在合成或测序过程中可能出现错误,当已转码序列末尾存
在连续 3 个相同的碱基时(例如 AAA),转码算法会将其中一位碱基替换为其等价碱基(例如 A
替换为 C)。该方法可以完全避免三个以上连续碱基重复的情况,但对特定数据结构,一旦映射
版权所有 侵权必究
基因慧 www.geneclub.net.cn
47
DNA 存储蓝皮书
关系确定,则无法实现对 GC 含量的调控。
2.2.2.2 Goldman 编码算法
为了直接消除单碱基重复对合成或测序过程的影响,2013 年 Nick Goldman 团队提出了一种基
于霍夫曼编码的轮转编码规则。
首先,使用霍夫曼三叉树分析需被转码的二进制文件,基于字节(8 个比特)出现频率,将
二进制序列转换为对应的三进制序列。
图 20:Goldman 编码算法示例
二进制序列
0 1 0 1 1 1 0 1
霍夫曼三叉树
0
2
2
1
1
轮转编码
DNA 序列
T
A
G
T
当前数据信息
三进制序列
前一位核苷酸
A
T
C
G
0
T
C
G
A
1
C
G
A
T
2
G
A
T
C
G
信息来源: 参考 Bornholt, ASPLOS, 2016
如图所示,文件的 0/1 信息首先转换为 0/1/2,对应的 DNA 序列当前碱基由当前的数据信息以
及前一位已选择的碱基(核苷酸)所决定的。例如,若前一位碱基为 A,且当前的数据信息为 2,
则当前的碱基为 G。该方法可以完全避免连续碱基重复的情况,但在固定规则情况下,无法实现
对 GC 含量的调控,同时可能出现片段重复。
Goldman 编码首次将信息科学中的统计编码方法也即霍夫曼编码引入 DNA 存储,也是首个将比
特 - 碱基信息密度纳入考虑的编码方法。同时它也利用分段重复保存的原理,将每个信息在 4 个
不同的分子中进行备份拷贝,尽管一定程度上增加了成本,但大大提高了稳定性。后续的 Borholt
等人对该方法进行了改进,利用异或运算大大降低了备份拷贝,或者冗余的信息量。Goldman 编
码也对如 Grass 编码、Yin-Yang 双编码等后续开发的算法提供了思路。
2.2.2.3 Grass 编码算法
2015 年,Robert N. Grass 团队将有限域(Galois field)与碱基三联体(triplet)进行关联,
提出了可避免长度大于 3 的单碱基重复的编码算法。
碱基三联体是由长度为 3 的碱基构成的 DNA 序列。在该算法中,规定三联体的后两个核苷酸
48 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
不可相同,因此全局范围内单碱基重复长度不会超过 3。通过组合计算可得,碱基三联体一共有
种组合方式。Grass 等人除了“TGT”的组合,最终得到 47 种组合方式。
如图所示,在编码过程中,2 个字节共 16 位的二进制比特序列会被首先转换为 47 进制的数
字序列(216 > 472),即 47 位的有限域。然后再基于该 47 进制的序列与碱基三联体的简单映射,
完成二进制比特序列到 DNA 序列的转换。该算法考虑到了单碱基重复的问题,然而并未解决对于
特定数据结构下 GC 含量的调控。
图 21:Grass 编码算法示例
0
0 1 0 1 1 1 0 1
4
二进制序列
A
C
A
A
G
A
C
A
A
G
A
G
G
T
T
G
C
T
G
T
…
有限域 GF(47)
A
…
1 0 1 1 1 1 1 0
映射
47 种 DNA 组合
0
4
46
DNA 序列
A C A A G A G G T
46
…
简单映射
…
47 进制序列
(后 2 个碱基不等)
信息来源:参考 Grass et al., Angew. Chem. Int. Ed., 2015
该方法可以有效避免连续三个以上的单碱基重复,同时其理论信息密度可以达到 1.78 比特 / 碱
基。同时在编码过程中,Grass 等人首次引入了信息技术中的纠错编码,除原始信息和索引外,增
加了两个纠错编码区域。这两个纠错编码区域均使用信息技术中常用的里德所罗门(Reed-Solomon)
编码。其中,第一部分的纠错编码出现在每条 DNA 序列末尾,用于纠正每条信息(DNA 序列)内
部的错误;第二部分的纠错编码添加了额外的 DNA 序列,用于纠正不同序列间可能出现的错误,
并与纠错编码 A 相互印证。上述双重纠错区域的设置方式,在一定程度上完成 DNA 存储过程中发
生的碱基错误或丢失。
Grass 编码作为首个将 DNA 存储的信息准确性纳入考量的算法,应用信息科学工具中的纠错编
码,拓展了 DNA 存储的编码模块,为此后的 DNA 存储更准确地应对 DNA 序列在合成、扩增、测序
中无法避免的碱基替换错误提供了解决方案。在此之后,绝大多数的编码算法开发,都在 DNA 序
列中支出一部分碱基,作为信息纠错的开销。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
49
DNA 存储蓝皮书
2.2.2.4 Blawat 编码算法
Meinolf Blawat 及其同事在 2016 年发布了一种编码算法,以处理 DNA 测序、扩增、和合成过
程引入的错误。该方法以字节而非比特作为碱基转换的基本单元,将一字节信息(长度为 8)转
换为长度为 5 的 DNA 序列信息。
如图所示,一个字节会被分为两个部分。其中,前六个比特为固定转换的部分,后两个比特
为可选转换的部分。固定转换部分的映射关系为 00-A,01-C,10-G,11-T。可选部分为 00-(AA/
CC/GG/TT),01-(AC/CG/GT/TA),10-(AG/CT/GA/TC),11-(AT/CA/GC/TG)。通过固定与可选转换
部分组合,必定可以在可选的四种选项中选择其中一种碱基组合,以保证前三个碱基不全相同,
后两个碱基不全相同。与此同时,解码过程中,该算法可以通过对编码规则的反推,进行一定程
度的纠错。
图 22:Blawat 编码算法示例
1 0 0 1 1 1 1 0
二进制序列
固定转换
可选转换
G
C
T
A
G
G
C
T
C
T
G
C
T
G
A
G
C
T
T
C
可选项
固定项
组装
G
DNA 序列
C
组装
A
T
G
(保证前 3 个不相等,后 2 个不相等)
信息来源:参考 Blawat et al., Procedia Computer Science, 2016
Blawat 编码一定程度上继承了 Church 编码碱基互换的思想,在纠错方面并没有利用信息学中
的纠错码,而是利用自身编码算法的特点,通过反向推导去除错误选项达到纠错的目的。
2.2.2.5 DNA Fountain 编码算法
2017 年,来自哥伦比亚大学基因组中心的研究人员 Yaniv Erlich 和 Dina Zielinski 提出了基
于 Luby 变换码(Luby Transform)的编码算法。Luby 变换码作为首个实用性喷泉码,可以从一组
给定的源数据包中产生一串无限的编码符号序列,在理想情况下,只需获得大小和源数据包总量
50 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
相同或稍大的任意编码符号子集,便可恢复源数据信息。因此,Erlich 等人将他们的编码算法命
名为“DNA 喷泉码”。
与上述算法不同的是,该算法并未将约束条件写入映射规则中,而是通过筛选机制使得最终
获得的 DNA 序列满足约束要求。其具体做法为,过滤不满足约束要求的 DNA 序列。由于在卢比变
换中,随机选择和异或操作是可以不断进行迭代的,因此理论上,可以获得满足 Luby 变换码解码
数量的 DNA 序列。
图 23:DNA Fountain 编码算法示例
序列 1
二进制序列
…
序列 2
…
0 1 0 1 1 1 0 1
1 0 1 1 1 1 1 0
0 0 1 1
…
随机选择
随机种子
1 1 1 0 0 0 1 1
异或操作
附着操作
0 0 1 1 1 1 1 0 0 0 1 1
DNA 序列
A
T
T
A
C
G
T
0 0
0 1
1 0
1 1
G
A
编码操作
T
基于既定条件的筛选操作
(不满足则丢弃)
信息来源:参考 Erlich et al., Science, 2017
生成 DNA 序列的过程如图所示。首先,将二进制序列分为多条二进制子序列。其次,基于特
定的随机数种子,在所有二进制子序列中选择一或多条二进制子序列进行异或操作。最终,连接
随机数种子和异或操作获得的二进制子序列,依据 00-A,01-C,10-G,11-T 的映射要求,将对
应的二进制子序列转换为 DNA 序列,以支持后续筛选条件的判断。未通过筛选的 DNA 序列将被过
滤,并进行下一轮的迭代运算。该算法中,同时也应用了里德所罗门(Reed-solomon)纠错编码,
对纠错效率进行进一步的巩固。
DNA 喷泉码的整体表现对比此前开发的编码算法上升到了一个全新的台阶,同时也打开了借
鉴传统高级信息编码进行 DNA 存储的大门。它的出现推动了 DNA 存储的编码算法理论研究,并吸
引了更多的传统信息学科学家、数学家等参与到 DNA 存储技术研发中来。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
51
DNA 存储蓝皮书
2.2.2.6 阴阳双编码算法
参考筛选操作和 Goldman 编码算法,深圳华大生命科学研究院的平质等研究人员主导提出了
Yin-Yang 阴阳双编码算法。
相比 DNA Fountain 编码算法,该方法并非基于随机数种子和异或操作获得 DNA 序列,而是基
于某种选中的规则簇(共计 6144 种),基于“阴”和“阳”两种轮转规则,将两条二进制子序列
转换为一条 DNA 序列。此外,如果在一定迭代次数后仍然找不到满足要求的 DNA 序列,则选中一
条二进制子序列并在外部生成一条随机的比特序列进行阴阳轮转操作,获得一定满足要求的 DNA
序列。
具体的阴阳轮转操作如下图所示。首先,将被选中的两条二进制子序列(其中一条或通过随
机生成)标定为上位序列和下位序列。其次,设定一个虚拟碱基作为起始碱基。再则,通过当前
的上位比特选中 2 种碱基,再通过当前的下位比特和前一碱基(如首轮则为虚拟碱基),选中 2
种碱基。基于两次被选中的 2 种碱基,选择其中处于交集的碱基作为当前碱基。
以下图的虚拟碱基 A 为例。当前的上位比特为 0,选中 A 和 T。当前的下位比特为 1,依据虚
拟碱基 A 作为前一碱基,则选中 C 和 T。两者的交集为 T,因此,第一位碱基为 T。后续每一位碱
基以此类推。
图 24:阴阳双编码算法示例
序列 1
二进制序列
…
0 1 0 1 1 1 0 1
序列 2
…
1 0 1 1 1 1 1 0
…
随机选择
A
虚拟碱基
DNA 序列
0
1
A T
C G
0 1 0 1 1 1 0 1
上位
1 0 1 1 1 1 1 0
下位
T C T G G G A G
基于既定条件的筛选操作
(不满足则丢弃)
信息来源:参考 Ping et al., Nature Computational Science, 2022
52 基因慧 www.geneclub.net.cn 版权所有 侵权必究
下位比特
前一碱基
上位比特
0
1
A
A G
C T
T
C T
A G
C
A G
C T
G
C T
A G
编码操作
二、技术:DNA 存储的技术流程与进展
阴阳码借鉴了自然界中 DNA 双链特征与中国古代哲学的阴阳两面思想,同时结合了 Goldman
编码的轮转思路与 DNA 喷泉码的筛选思路。它可以达到与 DNA 喷泉码相媲美的高信息密度(1.95
比特 / 碱基),并针对 DNA 存储中信息传输异步这一有别于传统信息传输体系的特点,不同信息
包之间相互独立,并未建立解码关联性。这一做法使得其在应对碱基错误与序列丢失的表现上比
DNA 喷泉码有了明显优势。在进一步的实验验证中,阴阳码可以在低分子拷贝数(≤ 100)下获得
更高的数据恢复率(实验数据表征可达到 88%)。阴阳码也提供了多达数千种的编码规则,结合
二进制片段灵活的组合方式,该方法可以应用于多种场景,包括文件的归档、数据的加密等等。
2.2.2.7 其他
除上述方法外,专利局中也有一些相关的编码方法:
在美国专利局中,专利号为 US 10650312 B2, Nathaniel Roquet, HyunJun Park, Swapnil P.
Bhatia 提供了一种将信息写入核酸序列的方法,包括:
1)将信息翻译成一串符号;
2)将符号串映射到多个标识符,其中所述多个标识符中的单个标识符包含一个或多个组件,
其中所述一个或多个组件的单个组件包含核酸序列,并且其中所述单个标识符多个标识符中的一
个对应于符号串中的单个符号;
3)构建包括多个标识符的至少一个子集的标识符库。
在中国知识产权局中,专利号为 CN201910909449.2,毕昆,陆祖宏等人公开了一种基于混合
模型的 DNA 存储编解码方法 , 包括如下步骤:
1)输入原始数据进行二进制转换,并进行霍夫曼编码压缩 ;
2)将文件分为若干列,列首添加地址码;将 DNA 存储四进制和二进制模型混合编码,并修改
初始模型码;
3)采用 RS 编码对模型码添加纠错码,然后对 DNA 序列进行 RS 编码纠错;
4)重复上述步骤 , 直至所有序列均完成编码与纠错;将所有序列按文件码和编号码排序,利
用 RS 编码对每 123 列添加 4 列纠错序列,此编码方法将传统的 DNA 存储四进制模型与二进制模型
混合编码,编码潜力达到 1.75;相较于四进制模型,能够更好地控制 GC 百分比,而与二进制模型
相比,存储能力大大提高。
2.2.3 编码集成与评估方法
目前公开的 DNA 存储编码算法所采用的编程语言、编码所设定的技术参数各不相同,不利于
基于已有研究基础的后续开发优化,针对不同类型数据文件的最适配算法选择也缺乏相应的评价
或是选择标准,从而阻碍了该领域的交流与发展。因此,对于已开发的不同编码算法的设计应当
一致,评价标准应当形成明确的共识。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
53
DNA 存储蓝皮书
2.2.3.1 DNA 存储编码算法的集成与评价平台:Chamaeleo 和“阿童木”
2021 年,深圳华大生命科学研究院研究团队发表针对 DNA 存储不同编码算法的集成与评价平
台 Chamaeleo 系统的研究成果。如下图所示,Chamaeleo 系统由转码模块、纠错模块和流程模块构
成。其中,流程模块用于实际转码 / 评估任务的执行,转码模块中的转码算法以及纠错模块中的
纠错码都会通过实例化的方式被流程模块中的具体流程所使用。
目前,Chamaeleo 集成了基本编码算法(即“A-00、C-01、G-10、T-11”的无约束的映射关系)
以及章节 2.2.2 中提及的 6 种编码算法及其优化版本。此外,针对汉明纠错和 RS(Reed-Solomon)
纠错进行了实现。上述算法均在不同的平台(Windows、Linux、和 Mac OS)上完成了测试。为了
进一步增强实用性,Chamaeleo 平台亦编写了如数据操作和流程监控等 DNA 存储所常用的工具。
图 25:Chamaeleo 示例
Chamaeleo
序列特征分析
编码算法
基本编码算法
Church 编码算法
Goldman 编码算法
Grass 编码算法
Blawat 编码算法
DNA Fountain 编码算法
阴阳编码算法
……
GC 含量
单碱基重复长度
算法性能分析
分析报告
信息密度
转码速度
稳健性 / 隐私性分析
选择合适算法
稳健性
数据文件
破译难度
二进制特征分析
输出 DNA 序列
文件大小
字节频率
信息来源:平质等,Chamaeleo: DNA 存储碱基编解码算法的可拓展集成与系统评估平台,合成生物学,2021
除 Chamaeleo 平台外,中科碳元联合中科院深圳先进技术研究院研究团队发布了首款 DNA 数
据存储在线编解码软件——“阿童木 (ATOM1.0)”。根据官网介绍,该软件为用户提供了友好的操
作界面,可在二进制数据文件和 A/T/C/G 的 4 碱基核苷酸编码的自由转换,方便进行数据存储或读取。
与传统计算机间的数据转换和通讯不同,该软件实现了计算机和生物体遗传信息之间的数据交互。
54 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
2.2.3.2 无比率纠删码软件架构:NOREC4DNA
NOREC4DNA 是针对无比率纠删码(rateless erasure codes,例如 DNA Fountain)开发的一套
使用、测试、比较和改进的软件架构。该架构中着重分析了包含卢比变换码、在线编码(Online
Code)、旋风编码(Rapid tornado Code)在不同参数情况下的解码情况。
2.2.4 编码算法的开发难点
编码算法的开发难点主要集中在 3 个方面:
●
在保证编码效率的同时需要兼顾满足特定约束条件
●
对约束条件的数学建模
●
对于任意的约束条件建立个性化编码
目前,被广泛常用的约束条件为:(1)最大单碱基重复限制;(2)全局 GC 含量限制。(3)
特定生物活性序列的规避。近两年,针对区域化 GC 含量的约束条件开始被讨论。
除此之外,部分算法使用最小自由能让生成的 DNA 序列不具有稳定的二级结构,天津大学齐
浩课题通过对 DNA 文库的连续扩增分析指出在高序列含量文库中高 GC 含量与高分子内自由能会使
DNA 分子获得大的复制优势。而随着 DNA 存储各项功能的进一步开发,如体内存储、分子杂交原
理的随机读取等,酶切位点、特定的 DNA 基序(motif)等也被提及。但目前除开枚举这些特定的
DNA 基序以外,还没有可靠的数学模型,通过函数化的方式对其进行概括。这使得基于受限映射
关系的编码算法很难进一步囊括这些约束条件。
虽然基于筛选操作的编码算法可以对任意约束条件尝试获得 DNA 序列,但是算法的编码性能
极大地受到输入二进制文件和参数选择的影响。而基于受限映射关系的编码算法很难对每一类约
束条件的组合进行设计。因此,如何稳定地完成任意约束条件的编码算法是 DNA 存储在算法领域
的潜在科学问题。
除了上述三点以外,编码算法对于文件的类型应当没有明显的偏好性,对于任意文件,编码
算法的编码效率与数据恢复保真度应该保持在一个较为稳定的区间内。此外,编码方法的复杂度,
包括时间复杂度和空间复杂度,亦建议在可以接受的合理范围内。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
55
DNA 存储蓝皮书
2.3 DNA 合成(存储信息写入)
DNA 合成是 DNA 存储中的核心技术之一,其效率与成本极大地影响着 DNA 存储技术的规模化
应用。
天然的 DNA 分子由带有不同碱基腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)
的脱氧核苷酸组成;人工合成 DNA 是基于化学法或生物法,将这些脱氧核苷酸单体按事先确定的
顺序依次连接起来,即 DNA 合成。常规 DNA 合成方法以单链寡核苷酸合成为基础,因此本节中的
DNA 合成如无特殊说明,均指的是单链寡核苷酸合成。
DNA 的合成按原理一般分为化学法合成和生物法合成。化学法合成主要基于亚磷酰胺法,
其中控制方法包含光化学法、电化学法、喷墨打印法、集成电路控制等。生物法合成包括基于
TdT、TdT-dNTP 交联体以及混合酶介导(见下图)。
图 26:DNA 合成技术发展历程
技术成熟
技术成型
技术原理验证
效率稳定 通量低 成本高
通量高 成本低 效率不稳定
高效 环保
~1960-2000
一代合成(固相柱式)
~2004- 至今
二代合成
(固相芯片)
~2008- 至今
三代合成(生物酶)
1955
1981
1983
2004
2008
磷酸二酯法
亚磷酸酰胺法
固相亚磷酰胺
三酯合成法
芯片合成法
TdT 酶合成法
Dr.Oligo(≤ 768)
Mermade( ≤ 192)
擎科 / 领坤 / 仪铂(≤ 1536)
Synthomics( ≤ 1536)
光化学(LC Sciences)
电化学(CustomArray)
喷墨打印(Twist Bioscience)
集成电路控制(Evonetix)
基于分选的高通量并行合成(BGI)
TdT 酶介导(DNA Script/Nuclera/
Molecular Assemblies)
TdT-dNTP 交联体(Ansa Biotechnologies)
混合酶介导(Camena Bioscience/Kern
Systems)
化学法合成
生物法合成
- 主流成熟方法
- 单步效率限制合成长度,~200 nt
- 合成过程中大量使用有毒化学试剂
- 作用条件温和
- 合成长度显著提升
- 避免使用有毒化学试剂
信息来源:江湘儿等,DNA 合成技术与仪器研发进展概述,集成技术,2021
2.3.1 化学合成
2.3.1.1 化学合成的基本原理
寡核苷酸化学合成起步于二十世纪四十年代末。1955 年,剑桥大学的 Todd 实验室,第一次
56 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
用化学法成功合成了简单二聚寡核苷酸,并于 1957 年获得诺贝尔化学奖(如下图)。1965 年,
Khorana 等利用化学方法大量合成脱氧核苷的单一聚合物或二种、三种脱氧核苷的重复序列,并人
工合成了六十四种核糖三糖苷用于研究蛋白质的生物合成过程,从而确定了氨基酸的三联密码子,
因此获得 1968 年的诺贝尔化学奖。
图 27:首次化学合成寡核苷酸
偶联
胸苷磷酰氯
3'苯甲酰脱氧胸苷
二脱氧胸苷
信息来源:深圳华大生命科学研究院整理
二十世纪六十至七十年代,寡核苷酸的化学合成方法不断被完善,主要包括改善亚磷酰胺
单体的稳定性和反应活性以提高单体偶联步效率,优化保护基团的反应活性及产物的稳定性以提
高氧化环节的氧化效率等。目前几乎所有的工业化的 Oligo 合成,均源于 1987 年由美国科学家
Marvin H. Caruthers 发明的“固相亚磷酰胺三酯法”。然而,由于每一步化学反应的不完全性和
副反应的发生,随着寡核苷酸合成链的延长,合成错误率急剧上升,合成产物得率也显著下降。
此外,由于合成过程中需要大量使用有毒化学试剂,所产生的废液、废气也需要特殊处理。为此,
近年来科研人员开发出很多旨在提高合成效率、降低副反应发生率的方法,并尝试创新研发不依
赖有毒化学试剂的合成方法。
亚磷酰胺三酯合成法是最为广泛使用的寡核苷酸合成法,也是目前国内外主流 DNA 合成仪采
用的合成方法,包括脱保护、偶联、盖帽和氧化四步循环。首先,按照预定碱基序列,通过液路
系统依次在提前做好表面修饰的固相载体上加入相应的四种亚磷酰胺合成单体(A、T、C、G)及
其它必须的化学试剂,以完成指定寡核苷酸序列的合成。待合成完毕后,通过氨气或利用其它碱
性条件,将产物从固相载体上切除并收集,即可获得目标碱基序列的寡核苷酸。但是由于每一步
化学反应的不完全性和副反应的发生(如脱保护过程中的脱腺苷等),寡核苷酸合成链越长,合
成效率越低,合成错误率越高,这极大地限制了寡核苷酸合成的长度及合成质量。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
57
DNA 存储蓝皮书
图 28:亚磷酰胺三酯法合成原理
1)脱保护
2)偶联
4)氧化
3)盖帽
信息来源:参考 Church et al., Nature methods, 2014
光化学脱保护合成法按合成原理可细分为光制酸脱保护合成法和光敏单体介导光控脱保护合
成法。光制酸脱保护技术原理为,光制酸前体通过光照产生酸,从而进行 5’- 二甲氧基三苯甲基
(N,N-Dimethyltryptamine,DMT)保护基团的脱保护。该技术遵循成熟的化学合成工艺,可以确
保高效的偶联收率和高保真的合成质量。同时,该方法非常灵活,任意修饰的单体分子都可以用
来合成一系列修饰寡核苷酸。但光制酸效率较低,需要复杂的光控条件,且仪器设计及操作也相
对比较繁琐。光敏单体介导光控脱保护合成法需要特定光敏保护基团的合成单体,与传统合成单
体相比,同样需要特殊避光保存,但反应效率显著降低,合成过程中容易产生更多随机合成突变,
导致合成序列保真度较低,因此限制了该方法的应用。
电化学合成法中脱保护过程所需酸的来源不同。该方法利用通电条件下,在电极阳极表面原
位产生质子酸,来脱除 DMT 保护基团,随后进行常规的偶联、盖帽和氧化步骤,然后进行下一个
循环。尽管该合成方法脱保护体系中加入了 2,6- 二甲基吡啶作有机碱,用来中和扩散出来的酸以
避免相邻电极上的 DMT 基团脱保护,但在高密度阵列反应点中,当相邻距离过近时,则无法有效
控制扩散。此外,该方式产生酸的效率较低,通电时间较长,且电化学过程对反应环境较为敏感,
导致合成稳定性较低、合成错误率偏高。
氢磷酸酯合成法是将传统的三价亚磷酰胺单体发展为五价磷单体,该单体在空气环境下相对
稳定,理论上可以避免经典亚磷酰胺四步法对水氧环境的要求。然而,由于该方法的偶联反应活
性比三价亚磷酰胺的低,导致合成效率也较低,因此限制了该方法的进一步应用。
两步合成法能一并完成氧化和脱保护两个步骤。与此同时,在合成较短寡核苷酸链过程中,
可以省略盖帽步骤,从而实现两步法合成。但该方法所涉及的缓冲体系稳定性较差,需要现配现用,
58 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
且省略盖帽步骤会有很多偶联不完全的副产物,难以应用于长链寡核苷酸的合成。
双碱基单体合成法合成同样长度的寡核苷酸序列,所需反应循环数较亚磷酰胺四步循环法减
半,因此反应效率有大幅提升,且反应错误率也会相应降低。而同样的反应循环数下,采用双碱
基合成法能快速高效地得到长链寡核苷酸目标序列。在> 200 nt 长链寡核苷酸高效合成中,双碱
基合成法更具优势。然而,当前该方法的单体成本较高,且双碱基单体溶解度较差而易结晶堵塞
试剂管道,所需配套的仪器液路系统复杂度高,因此暂未形成基于该方法的设备与应用。随着双
碱基单体大规模制备工艺的逐步完善,硬件系统设计与搭建能力的不断提升,有望研制基于该方
法的合成仪,从而在合成成本、合成错误率及合成长度等方面实现技术突破。
图 29:DNA 化学合成关键历史事件
英国剑桥大学的 Todd 实验室
1955 年,英国剑桥大学的 Todd 实验室合
1955
成了第一个具有 3'-5' 磷酸二酯键结构的
TpT,并因此获得 1957 年诺贝尔奖。
科拉纳 (Khorana) 等人
1957~
1965
1957-1965 年,科拉纳 (Khorana) 等人合成
了 64 种 DNA 三联体 , 并以此为基础确定了
氨基酸的三联密码,并因此获得 1968 年
诺贝尔奖
磷酸三酯合成法发布
磷酸三酯合成法,70 年代中期发明的合
成方法,并初步实现了核酸化学合成的固
70 年
代中
相化和自动化。80 年代 , 中科院生化所 ,
复旦遗传所等单位使用此方法合成 DNA。
亚磷酰胺合成法发布
1987 年, 由 美 国 科 罗 拉 多 大 学 Marv
1987~
Caruther 院士发明的亚磷酰胺合成法,
是目前正在使用的合成方法。1989 年开
始,首台商用合成仪的推出促进了引物合
成产业的发展
信息来源:生工生物提供,基因慧整理
此外,国外工业化的 Oligo 合成定制服务,始于 1989 年由 ABI 推出的第一台商业化自动 DNA
合成仪。而国内始于 1995 年由生工生物建成第一条商用 Oligo 合成生产线,标志着中国由此开始
了 DNA 合成定制化服务的大规模应用。
Oligo 合成需要在合成仪的合成柱上先得到 Oligo 粗品,再经过氨解、纯化、定量、分装和干
版权所有 侵权必究
基因慧 www.geneclub.net.cn
59
DNA 存储蓝皮书
燥等步骤,最终获得符合客户定制需求的 Oligo 成品。从合成的基本技术原理上来说,“亚磷酰
胺三酯法”仍是目前主流的 Oligo 化学合成的原理基础。而从设备平台上,根据不同的应用场景,
可具体可分为三个不同的层面:
柱式法固相合成和芯片合成:前者仍然是商用 Oligo 合成的主流技术平台,以 IDT、生工生物
和擎科生物作为国内外的行业代表企业;后者以 Twist、安捷伦、迪赢等公司为代表,主要用于超
高通量 Oligo Pools 的合成。
超 微 量、 微 量、 常 规 量 和 大 规 模 合 成: 超 微 量 和 微 量 分 别 为 fmol 和 pmol 级, 主 要 用 于
CRISPR 基因编辑、基因库和 NGS 靶向捕获领域;常规量为 nmol 级,大量应用于常规 PCR 和荧光定
量 PCR 上;大规模合成一次可达 μmol 级,主要用于医药诊断行业的工业原料;
低通量、中通量和高通量合成:柱式法自动合成仪多以 48、96、192 和 768 通量为主,最高
可达 1536 通量;而基于半导体芯片为固相载体的芯片合成,能一次性合成数万条乃至上百万条寡
核苷酸,在大幅提高合成通量的同时,极大降低了单位碱基的合成价格。
表 12:Oligo 芯片合成和固相合成的区别
合成方式
芯片合成
固相合成
合成通量
一张芯片可合成万以上条 Oligos
单机最高 1536 通量
合成产量
超微量(fmol)~ 微量(pmol)
微量 ~ 大规模(pmol~μmol)
保真性验证
只能通过高通量测序来进行验证
每条寡核苷酸均进行质谱验证
使用成本
探针条数越多成本越低
成本恒定不受条数影响
修饰基团
修饰基团单一,无法在合成过程中进行修饰
应用场景
代表公司
修饰种类丰富多样,可灵活修饰在 Oligo 的
5 端、3 端和中间
Crisper 基因编辑、NGS 靶向捕获、高通量基
PCR/qPCR、多重 PCR、等温扩增、Fisher 原
因合成
位杂交、NGS 靶向捕获、NGS 接头引物
Twist、安捷伦、迪赢生物、华大基因
IDT、生工生物、擎科生物
信息来源:生工生物整理
亚磷酰胺三酯合成法是最为广泛使用的寡核苷酸合成方法,也是目前主流 DNA 合成仪采用的
合成方法,包括脱保护、偶联、盖帽和氧化四步循环。
60 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
2.3.1.2 DNA 合成设备的发展
DNA 合成仪是 DNA 合成的核心装备。自上世纪九十年代起,英美等国基于经典化学合成法原
理基础上开始了 DNA 合成仪的研发与商业化,经历了从第一代柱式合成仪到第二代高通量芯片合
成仪的关两个关键性时期。
目前,第一代柱式合成仪在市场上有多款机型流通,其中接受度较高的代表是 BioautomationMermade 和 Biolyitc-Dr.Oligo 系列合成仪。
2000 年,第二代高通量芯片合成仪面世,根据核心技术原理的不同,一般分为五类:
表 13:合成仪的分类
代表企业
国家
核心技术原理
LC Sciences(联川生物于 2020 年收购)
美国
光脱保护 µParaflo 合成仪
Custom Array(金斯瑞生物于 2017 年收购)
美国
电化学合成技术合成仪
Agilent Technologies、Twist Bioscience
美国
喷墨打印合成仪
Evonetix
英国
集成电路控制合成仪
深圳华大生命科学研究院
中国
基于分选的高通量并行合成原理的高通量合成仪
信息来源:深圳华大生命科学研究院提供,基因慧整理
1)一代柱式合成仪
柱式合成仪的合成载体为柱状管道合成柱,内部填充的可控多孔玻璃(CPG)为真正的反应介
质,通过电脑程序控制试剂加入与 CPG 反应,最终合成单链 DNA。
目前,具有柱式 DNA 合成仪自主研发和生产能力的研究机构及企业主要集中在发达国家和地
区,包括美国的 GE、ABI、Beckman Coulter 等公司,德国的 K&A Laborgeraete、PolyGen 等公司,
韩国的 Bioneer 公司,丹麦的 TAG Copenhagen A/S,日本的瑞翁医疗株式会社等。
此外,由于近几年寡核苷酸合成需求的不断提升,中国市场也涌现出多家如擎科生物、江苏
领坤、仪铂等多家开发一代柱式合成仪的公司。由于中国具备合成仪生产能力的企业起步较晚,
行业整体技术经验积累不足、研发创新能力较弱,产品质量存在较大差距,因此在 2015 年之前,
国内市场主要被国外企业所占据。而随着擎科生物合成仪的推出,以自主研发的 CPG 产品,一举
打破国际技术垄断,为国内基因行业的发展注入强大的推动力。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
61
DNA 存储蓝皮书
表 14:一代柱式合成仪代表性公司概览
国家
公司
官网
GE
https://www.gehealthcare.cn/
ABI
https://www.thermofisher.cn/cn/zh/home/brands/applied-biosystems.html
Beckman Coulter
https://www.beckmancoulter.cn/
Biolytic
https://www.biolytic.com/
Bioautomation
https://bioautomation.com/
Synthomics
https://tracxn.com/d/companies/synthomics.com
擎科生物
https://tsingke.com.cn/
江苏领坤
http://www.richcon-biotech.com/
鼎国昌盛
http://www.dingguo.com/
K&A Laborgeraete
https://www.dna-synthesizer.de/company/
PolyGen
http://www.polygen.de/index.html
韩国
Bioneer
https://eng.bioneer.com/
丹麦
TAG Copenhagen A/S http://tagc.dk/
日本
瑞翁医疗株式会社
美国
中国
德国
https://www.zeonmedical.co.jp/c/
信息来源:深圳华大生命科学研究院提供,基因慧整理
当前,柱式合成仪单批次合成通量最高可达 1536 条寡核苷酸,最长合成长度一般在 150-200
nt。受到每步合成效率的影响,超过该长度以后,副反应和合成效率会显著影响寡核苷酸的序列
准确性与产率。产量一般在 0.5~1000 nmol 水平,合成错误率约为 1/1000 nt,成本为 0.05-0.5 元
/nt。
尽管 1536 通量的一代柱式合成仪的合成时间和效率,较早期低通量型号设备已有较大提高,
但无法从根本上解决单碱基合成成本高的问题,难以满足面向高通量基因合成的需求,例如大规
模捕获探针合成、基因合成、DNA 存储等。
引入革命性创新技术,提升通量降低合成成本,成为全球当下迫切需要解决的难题。为满足
不同的合成需求,擎科生物在耗材生产和仪器制造上都进行了以下产业布局:
在原材料中,擎科生物自建 DNA 合成原材料的化学工厂,凭借雄厚的研发实力,开发了 DNA
62 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
合成试剂、合成单体、修饰单体与 CPG、条状分子筛、合成柱等一系列产品,可提供产品种类达
200 余种,合成原料年产量达 200 吨。使用自产原材料,确保基因合成质量的同时更有效降低合成
成本。
在合成仪中,擎科生物使用的自主研发生产的关键反应装置 CPG,其孔道均一、不易堵塞、
溶剂利用效率高、产品参数更稳定,极大降低了 DNA 合成过程中因固相管道堵塞造成的反应终止,
保证了 DNA 合成生产的稳定性。打液模块超细管脚孔径,打破了国外保持的 5ul 最小体积量。基
于擎科基因合成产业链产品的使用,40bp 单根合成仅试剂成本可节省高达 42.2%。
与此同时,擎科生物作为国内唯一一家集设计、合成、组装、检测为一体的 DNA 合成全产
业链高科技企业,深耕长片段合成及测序技术的研发优化,开发的高品质快速基因合成技术,包
含从序列优化、引物设计到小片段合成、大片段重组等多个流程,在大片段组装前后同时进行
Sanger 测序及 Fast NGS 测序验证,保证合成片段的准确性。在快速基因合成技术的基础上,开发
出超长片段快速基因合成技术,可生产长达 160Kb 大片段 DNA。目前,擎科生物已经建立起 20Kb
的长片段基因交付生产线,依靠长期技术积累,可实现月产量 1000 条的规模化大片段基因合成的
交付。
2)二代高通量芯片合成仪
芯片合成仪,即以芯片为 DNA 合成载体。单张芯片可实现成千上万条长度不等的单链 DNA 合成。
该类型设备可在提供高通量合成的同时降低试剂的消耗,初步实现低成本高通量的寡核苷酸合成。
目前国外在高通量芯片合成仪的技术与市场布局较早,积累了超过 10 年的经验。相比一代柱
式合成仪,二代高通量芯片合成仪的通量高、成本低;但目前市场上仅提供技术服务,还没有商
业化的仪器。
目前国际上的高通量合成仪,根据其合成原理主要包括五类(如下表):
表 15:二代高通量芯片合成仪代表性公司概览
代表性公司
国家
LC-Sciences
美国
发布
年份
2006
技术原理
光化学
错误率
优点
缺点
合成通量较高,单芯片合成通
合成效率有待进一步
~5‰-10‰ 量 4-30K;试剂消耗量少,单
提 升; 微 流 控 芯 片 设
碱基合成成本较低。
版权所有 侵权必究
计加工制作复杂。
基因慧 www.geneclub.net.cn
63
DNA 存储蓝皮书
代表性公司
国家
发布
年份
技术原理
错误率
优点
合成通量高,单芯片合成通量
Custom Array
美国
2011
电化学
~3‰-12‰ 12-90 K;试剂消耗量少,单
碱基成本低。
Twist
Bioscience
合成通量高,单芯片通量可达
美国
2013
喷墨打印
~5‰
百万;合成稳定性较好,错误
率较光化学及电化学原理低。
合成通量很高,扩展提升相对
Evonetix
英国
2016
集成电
路控制
简 单 方 便, 官 方 宣 称 可 达 亿
不详
级;可实现原位组装和纠错;
暂未发布设备,实际应用效果
有待观察。
缺点
合 成 稳 定 性 差, 错 误
率 高; 芯 片 集 成 度
高, 加 工 复 杂; 仅 适
用于寡核苷酸库合成。
单条寡核苷酸合成产
量极低
试 剂 消 耗 量 较 大, 物
料和时间成本并不占
优 势; 芯 片 集 成 度 很
高,加工复杂。
合成通量较高,可达万级,扩
展 相 对 简 单 方 便; 合 成 质 量
基于分选的
华大
中国
2020 高通量并行
~1‰-3‰
合成
稳定,错误率低;芯片加工简
芯片物理兼容性有待
单,且可重复使用,单碱基成
进一步提升。
本低;产物形式灵活,可单条
交付或寡核苷酸库交付。
信息来源:深圳华大生命科学研究院提供,基因慧整理
① 光化学法 DNA 合成仪
例如 LC Sciences 公司基于光脱保护原理的高通量 DNA 合成仪采用数字化光源投影技术,提供
电脑可控的高分辨率多点平行光源,将特定频率的光精确地投影到反应位点,通过是否光照来控
制各个反应位点是否进行脱保护反应,从而控制每个位点合成反应的是否进行。通过利用微流控
技术,实现合成过程中所需单体等试剂的精准输送。
较一代合成仪,光化学法合成仪的试剂消耗量少,单碱基合成成本低。但目前单循环得率
在~ 98.5%,反应效率不适合较长 Oligo 的合成,且微流控芯片加工制作复杂,合成通量较难大幅
提升,需要从脱保护效率及光控系统的精确度上进行优化改进。
LC Sciences 的母公司联川生物针对该痛点,自研第二代高通量微流控原位合成仪器,填补国
内自主产权二代 DNA 原位合成仪器的空白。并基于此搭建了 µParaflo 微流控原位高通量合成服
务平台,成为国内少数几家具备自主合成基因芯片和超高通量 DNA 能力的公司。
联川的核心技术是光敏酸介导 µParaflo 微流控原位合成技术(Gao et al. 2001;Zhou,
X. et al.2004),采用全球首创光生酸合成方法及精准的数字光印刷技术,在自行设计加工的
µParaflo 微流控芯片上一次性合成数万条寡核苷酸,形成独有的技术壁垒,在第二代合成平台
64 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
中占据一席之地。
目前该仪器可以在 2.5cm*4 cm 大小的芯片上一次性合成数万条 DNA,合成 DNA 长度达到 200
nt,均一性良好;在载玻片大小的基质上同时合成数十万条 DNA,仪器性能已经可以初步满足 DNA
存储、基因捕获测序、基因合成等高通量 DNA 的主要应用场景。基于该技术已提供芯片检测服务、
Oligomix 产品、NGS 基因捕获探针产品、抗体库合成及其他定制化服务。
图 30:联川 µParaflo 微流控原位合成技术
数字化平板照射
微流控芯片
光敏酸脱保护原理
DMD
数字光刻法微流控原位合成原理
OFF
试剂仓
芯片表面
ON
ON
OFF
DLP
加光敏酸
数字光掩膜
Photo
Generate
Acid
添加单体
下个碱基循环
脱保护
冲洗
偶联 - 盖帽 - 氧化
5 ' 羟基暴露
光生酸
信息来源:联川生物整理
此外,联川生物基于微流控芯片技术的超高通量 DNA 合成平台也已和相关合作企业开展研发
测试,待生产工艺成熟稳定后即可进入测试阶段,预计 2-3 年内可正式商业化应用。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
65
DNA 存储蓝皮书
②电化学法 DNA 合成仪
例如,Custom Array 公司基于电化学原理的高通量 DNA 合成仪是目前唯一被商业化的高通量
芯片 DNA 合成仪。合成反应已缩小到微米级别的反应孔内,一张芯片的合成池上有上万个反应孔。
通过电化学脱保护的方式,既减少了原料的消耗也提高了合成通量,大幅度降低单碱基成本,
通量高达 12000 至 90000 条,但缺点是合成错误率高、产量低,准确率低且不稳定,合成通量的
灵活性低。Custom Array 于 2017 年被金斯瑞收购,停止销售该款合成仪,转而提供商业合成服务。
未来,若能在芯片设计与加工工艺方面进行设计与优化,最大程度避免氢离子串扰的问题,则有
望进一步提高合成质量。
2021 年末,微软(Microsoft Research)联合华盛顿大学在学术期刊 Science Advances 上报道
了基于微纳电极阵列的电化学 DNA 合成芯片,这项工作通过 130 nm 光刻工艺,将微电极阵列的位
点尺寸减小到亚微米级,从而将位点密度推进至每平方厘米 2500 万单位,并有效实现了位点间的
交叉干扰。这是当今世界上高密度 DNA 合成阵列芯片的最高水平,然而,目前这项工作还处于研
发阶段,未见相关专利或产品面世。
③喷墨打印法 DNA 合成仪
Agilent 公司最早实现利用喷墨打印原理进行 DNA 合成,随后,Twist Bioscience 公司 进一
步改进了合成芯片设计,并开发了高通量 DNA 合成仪。该技术利用高速的微量喷墨打印作为单体
等试剂的输送方式,在特殊处理的三级微米级的硅基通孔上合成寡核苷酸,可实现上百万条寡核
苷酸的高通量合成,再利用匹配的反应器与这些微孔对接,实现原位的 DNA 拼接和组装,从而直
接得到大量的长片段的 DNA 分子。
在国内市场,迪赢生物利用半导体行业工艺对 3D 喷墨打印技术进行了独立研发,突破了微米
级芯片表面图案化处理,二代合成化学优化和 Flowcell 控制等关键核心技术,成功开发出了自主
知识产权的 3D 喷墨打印超高通量原位 DNA 合成平台,合成长度更长、成本更低、错误率更低。每
个碱基的合成成本比传统合成低 3 个数量级以上,错误率低于 1/1000。
喷墨打印法合成仪集成了微流控技术、半导体加工技术和分子组装技术等一系列前沿技术,
其技术的实际成本和效率在全球范围内处于较为领先的水平。
由于合成通量依赖芯片反应位点数量,如若需要进一步提高芯片反应位点密度,则需要依赖
更为复杂的半导体精加工技术以及可实现针对高密度反应位点的超高打印精度喷头,实现难度较
大,因此其成本进一步下降的难度较大。此外,由于其微量生化反应体系,DNA 合成产物的载量
仅能达到 fmol 水平,需要通过以扩增的方式提升载量,但难以达到 pmol-nmol 的水平。
④基于集成电路控制原理的 DNA 合成仪
Evonetix 公司开发基于集成电路控制原理的高通量 DNA 合成仪,是通过在具有特殊设计的大
66 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
规模可寻址的合成位点的封闭腔室内,加入低熔点的可反复加热的阻断材料,利用电路信号控制
每个位点的通电与否进行位点加热控制。在加热情况下,该位点上的特殊材料可吸附在该位点阻
止后续通入的试剂在该位点上反应,如果后续需要在该位点进行合成,可用溶剂将该材料清洗掉,
使得该位点暴露出来以进行合成反应。
Evonetix 公司的关键技术是理论上接近十亿个位点的 Oligo 合成和可实时监测的高保真 DNA
纠错组装技术。该技术还处于研发和未公开阶段,实际应用效果还有待验证。
⑤基于分选的高通量并行合成原理的 DNA 合成仪
深圳华大生命科学研究院基于分选的高通量并行合成原理自主研制 DNA 合成仪。其原理是,
按照预合成序列信息将带有特殊标记的芯片合成载体,快速移动并依次排列,集合到相应的反应
腔室中进行碱基合成延伸,反应结束后回收芯片进入下一个合成循环,直至序列合成完毕。
该技术原理的优势包括:
●
芯片加工工艺简单:无需复杂的微阵列芯片加工工艺,可重复使用,对成本控制有利;
●
合成通量拓展灵活性大:通量取决于合成载体和反应腔室大小,通量提升不依赖于加工
工艺;
●
载体组合灵活:利用带有特殊标记的芯片合成载体,可灵活组合合成完毕的载体
●
反应产物既可混合,也可单独分离
目前最高通量达十万级,在错误率(~1‰ -3‰)及合成载量(> pmol 级别)方面具备突出优势,
有望快速实现合成成本的指数级下降。由于芯片在连续分选和物理转移过程中会产生表面磨损,
进而影响芯片的可识别性,因此未来需要从芯片选材及结构加工上进一步提升其物理兼容性。
2.3.1.3 化学合成技术面临的行业痛点及解决案例
经过三十多年发展,DNA 的化学合成仍然有以下痛点需要突破:
●
Oligo 合成的长度越长难度越高
化学合成 DNA 的错误率远高于活细胞内的 DNA 复制和 PCR,每单个合成循环的错误率约为
1/100,且随碱基数目增加而增加。第一种情况是碱基缺失(N-1、N-2……),主要原因是化学反
应不可能达到 100%,随着链的延长,目标序列含量不断降低。
第二种情况是 oligo 分子中存在 G- 偶联或单碱基插入 (N+1) 同时又存在单碱基缺失 (N-1)时,
此条 Oligo 的长度与目的片段的长度相同,因此无法通过纯化将此“失败序列”去除。
Oligo 合成的这些固有“通病”,也导致了 Oligo 合成长片段的能力止步于 300 nt 左右,也是
目前对于更长片段的基因合成仍需要人工去拼接、耗费精力去挑取正确的主要原因。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
67
DNA 存储蓝皮书
●
不同应用市场对 Oligo 的多样化定制需求
无论是合成的生产工艺流程和 QC 方法,均单一而固化。但由于 2020 年的新冠疫情而促使分
子诊断 qPCR 检测、核酸类疫苗药物的快速爆发,以及精准医疗对于高通量测序技术的广泛应用。
不同的应用场景对 Oligo 的质量标准提出了更高的需求。这里举三个例子:
1)用于 qPCR 的荧光探针,要求更高的灵敏度、更准确的浓度一致性、更高的纯度和更高标
准的生产环境;
2)用于高通量测序技术的建库接头,需要严格控制接头与接头之间的交叉污染率;
3)用于高通量测序技术靶向捕获的探针,需要更高的 Biotin 标记效率、更高的覆盖率和均一性。
这些都给 Oligo 合成定制服务公司带来了新的挑战。
●
在高通量合成和大规模合成上找寻平衡点
前文已述,柱合成法的 Oligo 合成,虽然能解决单条 Oligo 的大量合成,但其最大合成通量仅
1536;而芯片 DNA 合成,虽然能在一张芯片上合成万以上级的 Oligos,但单条 Oligo 的产量极其微
量,尽管可以通过 PCR 或体外转录的方式去进行产量放大,但这种方式带来的不均一性可能会影
响最终的应用效果。尤其是芯片合成所得到的成千上万条 Oligos 只能混合在一起,而不是真正得
到各自独立的“单条 Oligo”。
针对上述的行业痛点,首先,提升长片段 Oligo 合成能力的核心来自提升化学合成的耦合效
率和纯化工艺两个层面。以生工生物为例,一方面建立合成研发中心,持续进行 Oligo 合成生产
工艺的优化;建立原料合成实验室和试剂生产工厂,对核心上游原辅料,如 CPG、合成单体、修
饰原料和溶剂等,进行自主研发生产。使合成中的各个环节能有效控制,将耦合效率提升 0.2%~0.5%,
可大幅提升长片段 Oligo 的合成质量。
另一方面,在常规反相 HPLC(RP-HPLC)纯化的基础上,增加离子交换 HPLC(IE-HPLC)。
IE-HPLC 基于相对电荷差将全长引物从截短的引物中分离纯化出来,可以有效去除 N-1 短片段。
通过结合 PAGE、RP-HPLC、IE-HPLC 和膜过滤等多种纯化方式,可极大提升超过 130 nt 长片段
Oligo 的纯度和质量。
其次,国产 Oligo 合成的自动化程度与国外相比仍有一定的差距,目前国外以 IDT 为首的头部
企业已具备生产高度集成自动化。国内企业则以生工生物为代表,Oligo 合成的自动化程度已达到
70% 以上,基本实现了独立的模块工序自动化。预计在未来 2-3 年内,生工生物将开始进行 Oligo
合成各工序间的集成自动化软件和硬件的开发,通过管道输送连接来实现从原料投放、半成品生
产和成品分装一体的无人工参与的超级 Oligo 合成生产线。
除生工生物以外,擎科生物、联川生物、华大智造也正积极打造全自动化生产线。其中,擎
科生物搭建的基因合成全自动化生产线已经实现从客户下单、引物序列导入、合成、到纯化、组装、
组装产物纯化等一系列步骤的自动化生产。合成设备集成化、机械化、智能化、模块化的操作有
效减少人工作业,不仅降低了基因合成成本,批次间的稳定性也得到了有效的保障。
68 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 31:擎科生物自动化生产线
信息来源:擎科生物整理
而联川生物也在着手搭建柔性自动化控制系统,旨在解决 DNA 合成劳动密集型问题,包括硬
件及软件的研发。通过算法、模型学习等手段开发高效 DNA 设计软件,引入机械臂、工作站等装置,
佐以信息化控制系统,打通从 DNA 设计到寡核苷酸合成,再到中片段 - 长片段基因合成的关键环节,
提升自动化水平。
华大智造提供单个的自动化工作站和全流程的自动化产线。针对 Oligo 合成各工序间的集成
自动化,华大智造可提供基于自动化样本制备系统 MGISP-960 的自动化工作站,可以实现基因合
成流程包括液体配制、基因组装 PCR 反应、PCR 产物纯化、产物均一化、基因克隆连接反应等多
个步骤的自动化。针对 DNA 存取集成自动化,华大智造拟采用工位流水线设计理念,基于自动化
产线 MGIGLab 整合多款不同功能的仪器在同一流水线上。无论是单个的自动化工作站,还是全流
程的自动化产线,华大智造都有配备完善的实验室信息化系统,对整个实验流程的样本、试剂和
耗材信息进行管控,从而实现全流程的自动化监测、生产调度和信息追溯等。
图 32:自动化产线 MGIGLab
信息来源:华大智造整理
版权所有 侵权必究
基因慧 www.geneclub.net.cn
69
DNA 存储蓝皮书
2.3.2 酶促合成
2.3.2.1 基本原理
传统亚磷酰胺化学合成法受化学反应效率限制,DNA 合成产物长度仅能达到约 200-250 nt,
极大地限制了下游应用。合成过程中涉及强酸、强氧化剂,产生较多对环境有害的化学废液,导
致后续处理费用高昂。而近几年出现的生物酶法 DNA 合成技术通常在水相环境下进行,可有效避
免上述问题,并有望以更低的成本合成更长的 DNA 分子。
在自然界中,DNA 分子的体内合成主要是由各种 DNA 聚合酶催化并依赖于 DNA 模板进行合成。
DNA 末端转移酶和一些种类的 DNA 聚合酶却可以不依赖于已有的 DNA 模板分子,直接催化 DNA 链
的合成。而生物酶法 DNA 合成技术也借鉴了自然界中的不同 DNA 合成方式。
图 33:左:体内 DNA 依赖模版的合成;右:DNA 末端转移酶的合成原理
信息来源:online-sciences.com/( 左 ) Deshpande, S et al., Nature Communication, 2019(右)
2020 年 10 月,知名学术期刊 Nature Biotechnology 在题为“Enzymatic DNA synthesis enters
new phase”的报道中提到,一些新创公司把酶促合成作为更快且更高效合成长链 DNA 分子的新技
术手段,同时极大地降低了合成和 DNA 链的组装成本。发展基于生物酶的 DNA 合成新技术,并结
合同源重组等体内组装方法,可以使寡核苷酸合成长度和准确度提升数个量级,这将极大地提高
利用合成生物学设计与构建的能力。同时,这一技术也会促进如 DNA 数据存储和新材料的设计制
造等新兴领域的重大突破。与 DNA 化学法合成相比,生物酶法合成潜力巨大,有望在合成长度、
成本及产量方面实现显著提升。
2.3.2.2 酶促合成技术举例
1)TdT 酶介导的酶促合成反应
TdT 酶介导的酶促合成反应是目前酶法合成 DNA 的研究热点。自 2013 年以来,三家以 TdT 酶
70 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
为基础的 DNA 合成公司:Molecular Assemblies,DNA Script 和 Nuclera 相继成立。
TdT 是一种非模板依赖性酶,通常以随机方式延伸 DNA 链,可将四种天然碱基加到 DNA 链的 3’
端。TdT 酶介导的酶促合成反应是通过修饰核苷酸分子,化学合成带有可逆终止基团的核苷酸单体,
然后利用 TdT 酶将碱基不断添加到所合成序列的末端。
基本原理是通过化学反应控制核苷酸分子上的化学修饰基团,使得该酶每次只能延伸目标单
碱基,随后除去终止基团并开始下一个目标碱基的合成,最终实现控制 DNA 链中目标碱基的有序
连接(如下图 34)。
图 34:TdT 酶介导的酶促合成反应
活化状态
(a)
带保护基的核
苷酸
脱保护
蛋白工程
改造的 TdT 酶
稳定状态
TdT 酶法合成循环
TCEP 或者 DTT
Molecular Assemblies 合成单体修饰基
(c)
(d)
Nuclera 合成单体化学修饰基团
DNA Script 合成单体化学修饰基团
信息来源:参考 Keasling et al., Nature Biotechnology, 2018
如何控制反应的启动与终止,实现某一特定序列的片段合成,是利用该酶促反应实现从头合
成 DNA 的关键问题。此外,酶促反应的催化效率、酶对修饰单体的特异性以及单体的特异性添加
版权所有 侵权必究
基因慧 www.geneclub.net.cn
71
DNA 存储蓝皮书
问题,亦是难点。
鉴于 TdT 酶对其所修饰的基团要求极高,该方法前期投入较大,需耗费大量的人力和物力进
行蛋白质改造研究及化学修饰基团筛选。
2)TdT-dNTP 交联体介导的酶促合成反应
由 Dan Arlow 和 Sebastian Palluk 等人于 2018 年共同成立的 Ansa Biotechnologies 公司,针
对 TdT 酶难以接受修饰核酸的问题,提出了 TdT-dNTP 交联体介导的可逆终止合成法。
其基本原理是,首先将 TdT 酶与单独 3’端带可逆接头的脱氧核苷三磷酸结合,形成 TdTdNTP 交联体,在 DNA 合成过程中每当新合成链的 3’端暴露出来时,该 TdT-dNTP 交联体连接到
链的 3’端,新目标碱基也随之被引入。同时,TdT 酶也继续停留在 3’端上阻碍别的单体继续添
加(如下图 35)。
图 35: TdT-dNTP 交联体介导的酶促合成反应原理
DNA 引物
下一循环
脱保护
TdT-dNTP
延伸
断裂试剂
固定 dNTP
TdT-dNTP 交联体
信息来源:参考 Keasling et al., Nature Biotechnology, 2018
与 TdT 酶介导的生物酶法合成相比,该策略不用进行前期的 TdT 酶蛋白工程改造和碱基单体
的改造,通过简单的方式将酶与碱基单体结合,起到在保证酶活性和效率的同时,实现碱基单体
的保护与可逆终止。然而由于要先将 TdT 酶与核苷酸偶联,导致 TdT 酶消耗量更大,一定程度上
可能增加合成成本。
72 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
3)混合酶介导的酶促反应
成立于 2016 年的英国公司 Camena Bioscience 利用特定组合的酶在三核苷酸异构体中实现无
模板的 DNA 合成。这种从头酶促合成和基因组装技术叫 gSynthTM。
其基本原理是,每条引物的 3’端都由可逆终止核苷酸(rtNTP)组成,包含特定组合的酶或
有末端转移酶活性的核糖酶,通过不断的重复延伸,合成 300 nt 长度的引物 ( 图 36)。对比同为
300 nt 长度碱基的合成片段,因其减少了从头合成逐步连接的步骤,故准确率较化学法合成有明
显提升。
图 36:(a) Camena 公司的核苷酸单体结构式(WO2018152323A1)
(b) gSynthTM 原理示意图(WO2019140353A1)
(a)
(b)
几何递增法合成
8 nt
引物固定
在固相载
体上
3'- 氧 -(2- 硝基苄基 )-2'-脱氧腺苷三磷酸
特定组合成 16 nt
信息来源:深圳华大生命科学研究院整理
Kern Systems 公司于 2020 年初,利用自己特有技术与平台从头合成了 2.7 Kb 长度的质粒
(pUC19),证明该方法具有实际应用价值,未来可应用于蛋白改造及微生物菌株构建等领域。
此外,Kern Systems 公司则从 DNA 存储的应用需求出发,采用一种免修饰的策略。该方法利
用了两种酶之间的竞争。首先 TdT 酶将核苷酸整合到 DNA 链末端,此时体系内存在另一种酶——
三磷酸腺苷双磷酸酶作为核酸降解酶,可以使体系中核苷酸浓度降低导致无法进行新一轮的合成。
该方法不能严格控制每一步的碱基添加数量,可能会导致合成错误率较高,但通过加入特定冗余
及纠错机制等方式,这一方法的合成产物只适用于 DNA 存储。
迄今为止,以上提及的 6 家酶促合成公司先后已获得超过 4 亿美元的融资,但整体仍处于
概念验证阶段,尚未达到大规模商业应用水平。在中国,中国科学院天津工业生物技术研究所、
湖南大学、上海交大、中科院深圳先进技术研究院等科研院校的研发团队在生物法合成方向均有
所布局。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
73
DNA 存储蓝皮书
2.3.2.3 酶促合成法相关企业
DNA Script 基于生物酶技术 , 于 2020 年推出了世界上首台桌面型 DNA 酶促打印机。
根据 DNA Script 官网(https://dnascript.com/products/)介绍,这台桌面型 DNA 酶促打印机
的单孔产量可达 200 pmol,单步反应效率高达 99.5%,合成过程中无需有机试剂,比现有化学法
DNA 合成仪器更环保 , 可大大提升 DNA 合成的普及性。
2021 年 2 月份,DNA Script 获得 Baseclick 公司授权售卖含该公司试剂的试剂盒,从而使
用户可通过点击化学(Click Chemistry)进行修饰引物的合成,借此加快分子诊断研发进程。
此外,如 Molecular Assembly、Ansa Biotechnologies 等公司也在积极研究新的酶法合成技术,
期望打破现有化学法合成的技术壁垒,以生产出长序列、高质量、序列特定的 DNA,但均暂未见
配套仪器。
表 16:主流酶促 DNA 合成公司概览
公司
Molecular
Assemblies
Nuclera
国家
成立时间
美国
2013
合成策略
优点
因需要同时保证酶效、
TdT 酶介导的酶促反应,
英国
2013
修饰后的核苷酸可通过添
加特定化学基团的试剂来
单体与酶的结合率、保
准确性较高
终止反应
DNA Script
Camena
Bioscience
Ansa
Biotechnologies
Kern Systems
法国
英国
美国
美国
2018
2019
护基的阻断率及脱保护
率,化学修饰基团筛选
和蛋白质筛选改造难度
2014
2016
缺点
大
基于三核苷酸异构体及特
定组合的酶
TdT 酶与核苷酸偶联
通过添加可与 TdT 酶竞争
的三磷酸腺苷双磷酸酶
因制备工艺流程复杂,
准确性较高
涉及多步反应,制备成
本高
避免 TdT 酶与修饰
核酸结合的难点
TdT 酶消耗量大
无法严格控制碱基的添
免修饰策略
加与终止,合成错误率
较高
信息来源:深圳华大生命科学研究院提供,基因慧整理
2.3.3 连接合成
由于 DNA 存储目前通常采用按需合成,即每次需存储的数据在进行“比特 - 碱基”编码转换后,
将得到的 DNA 序列以寡核苷酸文库或 DNA 片段形式从头合成。而在针对大量数据的存储需求方面,
现阶段该方式需要投入的合成成本极高。因此,不少研究者或企业也提出了预先合成短 DNA 序列
74 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
单元,在信息存储时将短序列单元进行定位选择,并按顺序连接起来的信息写入(合成)方式,
即连接合成。
2.3.3.1 基本原理
连接合成需要预合成一系列的 DNA 短序列单元,这些 DNA 短序列单元将通过映射编码的方式
对应字母、汉字或任意二进制信息,每个单元留出粘性末端(或接头)用于后续连接反应。需要
存储信息时,从预合成库中选取对应的单元,并通过连接反应、PCR 组装等方式将这些单元按需
要存储的顺序进行连接成为长片段。
该技术的优势在于尽管前期需要合成大量的 DNA 短序列单元库,但这些单元可以进行多次复
用,因而在大量数据的存储方面具有一定的成本优势。同时,短序列的合成错误率较低,且产量高,
因而也可以提升 DNA 存储的准确性。
图 37:基于预合成 DNA 组装原理的 DNA 存储流程
华
大
TAGCTTAACGCGTATGACATCGCA
TAGCATTACCAGGTATGCACCATC
convert
Blocks library
1
A
T
Assembling
1
T
A
T
华
1
2
T
1
T
A
华
upstream
downstream
Composing
因
TAGCTAACCAACACCACTAGAGCT TAGCTAATCCGGAACTTGTGGTGT
synthesize
A
Adapters library
基
A
T
2
A
3
T
3
T
4
T
T
2
2
A
T
华
A
T
2
4
5
T
A
T
T
A
T
大
3
A
T
A
基
A
因
A
Adding adapters
5
T
大
A
A
大
3
3
A
T
A
T
A
T
基
基
A
T
4
4
A
T
4
因
A
T
因
A
T
A
T
5
5
信息来源:深圳华大生命科学研究院专利 WO2017190297A1
2.3.3.2 原理验证
基于连接合成进行 DNA 存储的研究团队或企业目前并不多。
深圳华大生命科学研究院在 2017 年实现了连接合成的原理验证,并完成了其在文本存储的专
利申请,于 2021 年获得授权。该专利的基本原理为首先将文字 ( 汉字 ) 与 DNA 序列进行一一映射
并预先合成为双链 DNA,成为基本模块(block)。每个 block 都带有一个碱基的末端,可以与设
版权所有 侵权必究
基因慧 www.geneclub.net.cn
75
DNA 存储蓝皮书
计好的 adapter 相连。存储过程过,利用 adapter 的同源性,通过 OE PCR,Gibson 组装等方式进
行长片段的合成并最终得到目标序列。
美国 Catalog 公司在 2019 年宣布使用预先合成的 DNA 序列进行组装,存储了 16GB 大小的维
基百科。他们利用预先合成的长片段 DNA 进行拼接(具体流程不详),在研制的高通量装置中进
行并行反应,其公布的组装过程中的信息写入速度可达 4Mbits/s。中科院武汉病毒所刘翟团队也
利用“活字喷墨”原理制造了“毕昇一号”DNA 存储原理样机。主要原理是通过喷头将预先合成
的 DNA 片段(活字块)转移到目标合成点阵上,并进行后续组装或混合操作。
76 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
2.4 DNA 封装(存储信息保存)
DNA 分子的保存是 DNA 存储中的重要环节,尽管 DNA 分子生化稳定性高,其半衰期可长达 521
年,但暴露在空气中的 DNA 极易被 DNA 酶降解。在长期保存中,DNA 分子也可能发生化学键的断裂、
碱基的突变(如脱嘌呤)等损伤,因此随着分子链的长度增加,其半衰期也显著降低。从封装的
形式上,可分为物理封装(即通过低温密封、矿化、无机物密封、固体胶囊等形式进行封装)和
生物封装(即将 DNA 分子通过不同形式存储在活细胞内,并进行传代或低温保存)两种。本节将
对各种封装技术进行总结阐述。
2.4.1 DNA 物理封装
2.4.1.1 干粉 / 溶液的低温保存
DNA 溶液和干粉的保存稳定性略有差别。由于 DNA 水解的风险,DNA 溶液在室温下可以稳定
存储期最多为半年,而经过 -20° C 的冷冻,其保存期限(或 DNA 分子稳定存储的时长)可延长
至两年。
为了维持 DNA 结构 / 序列的完整性,避免 DNA 大规模断裂和降解,DNA 的较佳保存方法是干
粉,-80° C(或者液氮低温保存)。但低温冷冻保存不仅占用的空间大,需要购置超大的低温装置,
而且样品量大时需要配套的管理系统,分摊到单个样本的保存成本将增加。也有科学家提出利用
极地的低温特性,建设自然保护库来降低维护成本,而极地的基础设施、配套设备的建设代价也
十分昂贵。最重要的是低温保存无法对 DNA 样本提供绝对安全的长久保存,只是延缓 DNA 氧化和
水解的过程。
考虑 DNA 的冻干干粉的保存时间更为持久,科学家开发了多种针对 DNA 干粉的保存方式,其
中 Biomatrica、海藻糖和聚乙烯醇等 3 种材质的孔板有利于 DNA 分子的稳定保存。DNA 干粉也可
以吸附并保存在一种特殊的滤纸(US5807527)中, 保存期限可长达 3 年。近年来,科学家们还
发现,一些碱土金属盐也可以增强 DNA 干粉状态分子的稳定性。但另一方面,Fe2+, Cu2+ 等金属离
子也有可能通过芬顿反应(Fenton reaction)产生自由基,从而引发 DNA 分子的损伤。
近期,DNA 干粉也可以被存入特殊材质的固体胶囊中。以 Imagene 公司的特殊胶囊为例,该
公司开发了一种在室温下长期保存生物样品的方法,通过密封胶囊,将其内部的 DNA 干粉限制在
无水和缺氧的环境。预计在 25° C 的状态下,DNA 分子的降解速率常数相当于约 100,000nt 每百年
发生一次断裂,其稳定性比现有的商业化工艺大几个数量级。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
77
DNA 存储蓝皮书
图 38:固体胶囊保存
信息来源:Bonnet, Biopreservation and biobanking, 2017
此外,美国 SecuriGene 公司也利用特殊胶囊的形式对 DNA 进行长期保存,如下图所示。同时,
该公司也推出了面向长期保存 DNA 样本的“DNA 银行”服务,在保存如特殊胶囊前,对 DNA 进行
纯化以保证 DNA 的质量与保存活性。保存过程中,不用低温冷冻,特殊胶囊的设计可以保证 DNA
分子不受冲击、UV、湿度等影响,从而达到长期保存的目的。
图 39:SecuriGene 特殊胶囊
Precision-crafted from a solid
block of 316L surgical-grade
stainless steel
Impact & UV resistant
Shock-resistant Borosilicate
glass chamber
Triple-sealed design to keep
moisture out
Extracted, purified & preserved
Removable cap
DNA
Built-in humidity regulator
Individually engraved
信息来源:SecuriGene 官网
2.4.1.2 DNA 分子的矿化
利用 DNA 自组装纳米结构,可以使 DNA 分子与其他材料一起实现封装保护,以实现精准的生
物矿化。如图所示,上海交通大学研究团队利用核酸框架结构为模板和静电吸附作用为驱动力,
成功地制备出几何形状高度可控的磷酸钙纳米晶体,可大大提升 DNA 分子稳定性。
78 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 40:磷酸钙纳米晶体的制造
Ca2+ Stabilized
DNA Framework
DNA Framework-Encoded
Mineralization
信息来源:Liu et al., Chem,2017
日本京都大学医学院细胞与材料整合研究所研究团队利用多重折纸结构,以特殊设计的形状
在二维空间中放大折纸结构。他们使用 DNA 发夹结构装饰拼图碎片的表面,以显示字母表中的字母。
该方案可以随意调配组装顺序,从而灵活地存储信息,如下图所示。尽管该方法不是现在通常说
的 DNA 信息存储,但对 DNA 存储的保存和矿化设计也有着借鉴意义。
图 41:DNA 发夹结构装饰拼图
信息来源:Arivazhagan Rajendran et al, ACS Nano, 2011
版权所有 侵权必究
基因慧 www.geneclub.net.cn
79
DNA 存储蓝皮书
2.4.1.3 DNA 分子的其他介质封装(纳米硅球 / 纳米颗粒)
使用特殊壳体对 DNA 进行保存可以其不受核酸酶、氧气、紫外射线、电离辐射或者其他对
DNA 分子存在毒性的化学产品。通过参考骨骼化石保存 DNA 的模式,科研人员模仿化石隔绝环境
中的水分和活性氧,开发了一系列封装 DNA 分子的方法。其中 DNA 分子可以包裹在二氧化硅颗粒中,
利用加速老化试验推测,其中的 DNA 分子可以保存数千年。瑞士科研人员 Grass 等人利用自组装
技术,将 DNA 和聚乙烯亚胺交替包裹在磁性微颗粒表面,并在最外层包裹硅外壳,也可以实现高
密度的 DNA 信息存储。
图 42:DNA 和聚乙烯亚胺交替包裹磁性微颗粒
NaNO , HCI
H2O, ultrasound
25℃ , 30 min
PEI, MW 1200
H2O, ultrasound
Step 1
DNA, 150 basepair
H2O, ultrasound
Step 2
3x repeat Step 1 and 2
1x Step 1 to obtain positive
surface functionalization
Before encapsulation
After encapsulation
TEOS, 4 days
H2O, Thermomixer RT, 1100 rpm
信息来源:Chen et al., Advanced Functional Materials, 2019
基于上述研究成果,哥伦比亚大学研究团队使用 3D 打印完成了 DNA 封装的原理验证。如下图
所示,研究人员通过 3D 打印,让一只兔子形状的小饰物包含了编码数字指令的 DNA。在实验中,
他们培育了五代兔子,每次都从上一代剪掉一块,解码 DNA,得到打印下一个克隆的指令。数据
的完整性在每一代的复制中都有所丧失,第一代兔子中缺失了近 6% 的原始 DNA 序列信息,直到第
五代兔子,总计有超过 20% 的缺失。
80 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 43:DNA 存储数据的兔子模型
a
DNA code stl file
Binary stl file
1001100011
1010100010
1110110100
1110100100
1001001001
DNA
emcapsulation
Encode
with DNR tountain
Sequencing and decoding
with DNA fountain
Filament extrusion
DNA extraction
Printing of 3D object
PCR
b
DNA library:
12,000 oligos x 145 nt
SiO2
SiO2
0110010
1110100
105 bunny file units per g PCL
100 ppm particles in PCL
0.2 wt% DNA loading
stl file size: 100 kB
信息来源:Erlich et al., Nature Biotechnology, 2020
2.4.2 DNA 生物封装
2.4.2.1 质粒形式的生物封装
将 DNA 信息以质粒形式封装的基本原理是:利用体外基因拼接方法将 DNA 插入片段与质粒
DNA 在体外连接形成重组质粒导入大肠杆菌,重组质粒随着大肠杆菌的增值而复制,从而将 DNA
信息封装在细胞内。2021 年,天津大学研究团队证明了利用质粒组装将超过 1E+4 种类的 DNA 片
段文库,并进行混菌保存并可以稳定回收文库进行完美信息解码。
如图所示,质粒形式的生物封装主要分为以下几个步骤:
●
1.DNA 序列合成:获得用于携带编码信息的 DNA 序列,如前文所属,可以通过化学或酶促
原理人工合成。
●
2. 重组质粒构建:利用体外拼接技术,如基于外切酶的 Golden Gate 组装技术,基于内切
酶的 Gibson 组装技术,基于聚合酶的 PCA,OE-PCR 技术,合成获得的 DNA 片段与线性化后的质粒
拼装在一起形成重组质粒。
●
3. 转化:用一些特殊方法(如:CaCl2,RuCl 等化学试剂法)处理获得的感受态细胞,其
细胞膜的通透性发生改变,从而能够摄入外来 DNA。将重组质粒与感受态大肠杆菌细胞相混合 , 实
现了重组 DNA 分子的转化。
●
4. 筛选转化细胞:目前作为载体的质粒多含氨苄或者卡纳抗性基因,重组后的质粒只有在
版权所有 侵权必究
基因慧 www.geneclub.net.cn
81
DNA 存储蓝皮书
相应抗性即氨苄或者卡纳抗性的培养基中才能生长,而不含质粒的细菌则会死亡。
●
5. 菌株和质粒的保存:质粒可以在 -20℃长期保存。菌株可在含 20%-50% 甘油培养液中 -20℃
或 -80℃保存。
图 44:质粒形式封装 DNA
Foreign DNA
Plasmid
Restriction site
lacZ gene
Ampicillin
resistance
gene
Sticky ends
Bacteria may take up
plasmid with or without
the insert, or may not
take up plasmid at all.
Bacterial genome is
missing the lacZ gene.
Blue colonies
have plasmids
without insert.
White colonies
have plasmids
with the foreign
insert.
信息来源:Biology, OpenStax,2016, https://openstax.org/books/biology/pages/1-introduction
2.4.2.2 人工染色体形式的生物封装
使用人工染色体封装 DNA 信息的存储模式与传统光盘存储具有相似性,即可实现一次写入,
多次读出。因此,研究者将其称为“酵母光盘”。该方法将编码信息的长 DNA 片段进行人工合成 /
体外组装,通过细胞体内组装完成写入。该被写入的细胞被称作“母盘”,只要将载体细胞进行培养,
可实现“母盘”的快速低成本地复制并完成均一的拷贝数据。与早期的光盘存储模式非常类似。
虽然目前“母盘”的制作成本,即合成与组装成本较高,但信息的拷贝则可通过细胞培养实现,
相比 DNA 分子库的存储模式,更具经济性。
82 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 45:人工染色体形式的生物封装示例
254,886 1
one
backb
Notl
YAC CAT
Notl
Sub
-ch
A3
240,000
un
N UR
k1
CE
6
P
(BB ic
01- 1
BB
Linear
08
backbone
)
B
Step 1 Error correction coding
LDPC codeword (64,800 bits)
S30
V
(BB ideo
41- -4
BB
48
)
AR
Step 2 Sparsified coding
6
200,000
Sparsified codeword (81,000 bits)
3
eo - 4 0)
Vid
B
3- B k 5
08
(B B3
n
S1
chu
AR
Su b-
Pseudo-random sequence (81,000 bits)
oBB 1
2
nk 4)
3
Step 3 Superposition coding
V
(B B id eo - 2
25 BB 3 2)
160,000
C
Information (54,000 bits)
40,000
hunk 2
Sub-c
Pic 2
9-BB16)
(BB0
ARS
109
Sub
-c
hu
nk
A
Su b
-chu
nk 4
ARS107
l me
e
cia o
B ng
tifi os
NE idRa
Ar rom
M
ch
80,000
hu
de
Vi 7 B1 c
B
(
bSu
Superposed sequence (81,000 bits)
Step 4 Transcoding
ATG...CGG (40, 500 bp)
120,000
D
Encoding
Synthesis & assembly
Kilobase
242.5
244 kb
194.0
payload
145.5
Medium
Data
97.0
Insertion/deletion/substitution
48.5
15.0
Released
backbone
Decoding & recovery
Copy, extraction & sequencing
信息来源:Han et al., National Science Review, 2020
如上图所示,天津大学研究团队报告了一种将数据信息编码写入 254886 bp 的存储专用染色
体的案例。该项目存储了 37.8 KB 图片、视频以及文字,借助支持高鲁棒性、恢复快速寻址的编
码方法(水印叠加编码方案)与低密度奇偶校验(LDPC)纠错编码,有效克服单分子测序的高错
误率问题,实现了数据借助三代测序的快速可靠恢复。该工作突破性地将单菌内数据存储 DNA 数
量提升到百 Kb 碱基对的级别。
将编码 DNA 整合至宿主细胞染色体中亦可进一步提升编码密度。深圳华大生命科学研究院研
究团队将使用阴阳双编码算法编码的《莎士比亚十四行诗》通过将一段 54Kb 长度的 DNA 片段整合
至酵母基因组中,成功证明了 DNA 存储的信息密度可达到 432.2 艾字节 / 克,与之前的工作相比,
信息密度显著提高 3 个数量级。
2.4.2.3 基因编辑形式的生物封装
除了上述方式,直接将携带信息的 DNA 片段通过基因编辑的方式插入活细胞的基因组内也是
一种可行的技术手段。2017 年美国哈佛大学研究团队利用直接基因编辑的方式,将图片和短视频
版权所有 侵权必究
基因慧 www.geneclub.net.cn
83
DNA 存储蓝皮书
通过 DNA 存储的方式存入了大肠杆菌,并成功将其读取恢复。其步骤与常规基因编辑手段类似,
即利用 CRISPR Cas 系统将多个外源 DNA 序列插入大肠杆菌的基因组中的 repeater 区域。
图 46:基因编辑形式的生物封装
信息来源:Ping et al., Gigascience, 2019
2021 年美国哥伦比亚大学研究团队利用 CRISPR Cas 系统在电压不同情况下表现的特异性,将
电信号脉冲写入细菌质粒中,实现了电学信号向生物信号的转换,从而可以通过二进制的方式直
接在细菌质粒中写入信息。
图 47:电学信号向生物信号转换过程
信息来源:Yim et al., Nat Chem Biol, 2021
84 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
由于外源序列在细胞体内有被识别并被降解或丢失的可能性,因此选择基因组上的如保守区
域,或非活跃功能区域等进行外源 DNA 的插入也许可以降低信息丢失的风险。而通过基因编辑进
行 DNA 分子的生物封装,可以将携带信息的 DNA 序列精确地插入基因组的任意位置,在 DNA 分子
体内保存的稳定方面,也许有一定的优势。但使用基因编辑技术的门槛相对较高,同时也存在脱
靶的可能性,因此在选择使用之前需要对数据存储需求以及分子生物学实验水平等进行综合评估。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
85
DNA 存储蓝皮书
2.5 DNA 测序(存储信息读出)
DNA 测序是指,利用基因测序技术获得目标 DNA 片段的碱基排列顺序,即腺嘌呤 A、胸腺嘧啶
T、胞嘧啶 C、鸟嘌呤 G 的排列顺序。
而 DNA 存储的原理本质上是将数字文件的二进制编码 (0、1) 转换为 DNA 碱基的四进制编码(A、
T、C、G)并通过 DNA 合成完成信息写入。因此,将存储在 DNA 片段中的信息读出,首先需要测定
该 DNA 片段的碱基序列,即 DNA 测序。
图 48:测序在 DNA 存储过程中的作用
终端
编码
A
T
C
T
C
C
A
T
C
A
G
A
T
G
G
C
A
C
A
G
G
C
T
C
生化
合成
转码 DNA 序列
待转换的数字信息
解码
被还原的数字信息
T
A
C
T
T
C
A
C
A
C
G
A
C
T
G
G
G
A
A
C
C
G
T
C
DNA
测序
转码 DNA 序列
信息来源:平质等,Chamaeleo:DNA 存储碱基编解码算法的可拓展集成与系统评估平台,合成生物学,2021
从 1975 年 Frederick Sanger 发明的 Sanger 双脱氧链终止法至今,测序技术经历了近 50 年的
发展。但从初步规模化到当今主流的大规模平行测序(Massively Parallel Sequencing, MPS)仅用
了短短的十余年,包括但不限于:
●
焦磷酸测序法(454 系列测序仪,后于 2007 年被罗氏收购,并于 2014 年停产)
●
半导体测序法(Ion Torrent 系列测序仪,后于 2013 年被 Thermo Fisher 收购)
●
可逆末端终止测序法(以 Solexa 测序技术为基础的 Illumina 测序仪)
●
联合探针锚定聚合测序法(以 DNBSEQ 测序技术为核心的华大智造测序仪)
……
86 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 49:测序技术发展历程
信息来源:华大智造整理并制图
本节将以 Solexa 测序技术和 DNBSEQ 测序技术为例,对测序原理进行详细介绍。同时,在主
流的高通量短读测序技术之外,也有一些新兴的测序技术,比如单分子测序技术、显微测序技术等,
在此也将做一定的延展性介绍。
2.5.1 Solexa 测序技术
Solexa 测序方法是 1998 年开发的,开发者是来自剑桥大学的三位化学家 Shankar Balasubramanian、
David Klenerman 和 Pascal Mayer。Solexa 测 序 系 统 以 边 合 成 边 测 序(Sequencing-By-Synthesis,
SBS)作为基本设计理念,并以桥式扩增(Bridge PCR)和可逆末端终止子 (Reversible Terminator,
RTs)作为其核心技术。
桥式扩增是指制备好的单链 DNA 文库,与芯片 / 流动槽(Flow Cell)表面的单链引物互补,
一端被固定在芯片上,另一端随机和附近的另外一段引物互补,也被固定,形成“桥”。将桥型
ssDNA 扩增为桥型 dsDNA,再将桥型 dsDNA 变性释放出互补单链,锚定到附近的固相表面再形成
ssDNA。经过 30 轮扩增—变性循环,最终形成约 1000 拷贝的单克隆 DNA 簇(即 Cluster),达到
测序反应所需信号强度。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
87
DNA 存储蓝皮书
图 50:桥式扩增流程示意图
图释:两端连接有接头(如图中金色和绿色所示)的 DNA 文库经由密集固定在芯片上的引物(引物的 5’端借助一个柔性接头
固定在芯片上)进行 PCR 扩增。这样扩增产物也会被固定在芯片上,PCR 反应结束之后,每一个模板克隆都包含有 1,000
条模板产物。仔细检测模板浓度既可以保证在芯片上最大限度地携带 DNA 模板,同时也能避免模板过于拥挤的现象
信息来源:Metzker, M. L. (2009). Sequencing technologies — the next generation. Nature Reviews Genetics, 11(1),
31–46. doi:10.1038/nrg2626
在每轮测序反应中,Solexa 测序系统采用特异性荧光标记 4 种不同的 dNTP 与带有 DNA 模板
信号的 DNA 簇进行聚合反应,由于这些 dNTP 的 3' 端带有可化学切割的部分,每轮反应只能添加
一个 dNTP,其他没有被结合的 dNTPs、DNA 聚合酶及荧光基团被移除,并开始新一轮的反应。这
些 3' 端带有可化学切割的部分的 dNTP 就是聚合反应的“可逆终止子”。
在测序过程中,当带有荧光标记的 dNTP 参与聚合反应后,这一 dNTP 所携带的荧光信号可以
通过激光激发和成像来识别,从而完成信号采集(即完成了 1 个碱基的读取工作),随后切割以
利于下一个 dNTP 的聚合,如此循环往复,直至最终实现对模板 DNA 片段逐个碱基的测序。
图 51:每轮测序循环反应的原理示意图
4 种 FI-NTP's
+ 聚合酶
拍照,收集信号 去阻断 , 切除荧光基团
X36-151
信息来源:Wikipedia, Sequencing_by_synthesis_Reversible_terminators
2007 年,Illumina 公 司 收 购 Solexa 公 司。2010 年 初,Illumina 公 司 将 Solexa 测 序 系 统
Genome Analyzer IIx 升级为 Illumina 测序系统 HiSeq 2000。在随后的几年时间里,Illumina 陆续
88 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
推出了 HiSeq 2500、HiSeq 3000/4000、HiSeq X,MiSeq、NextSeq 500/550、MiniSeq、iSeq 100、
NovaSeq 5000/6000 和 NextSeq 1000/2000。
目前,不少 DNA 存储案例都使用了 Solexa 测序技术。2017 年,哥伦比亚大学的 Erlich 团队利
用 DNA 喷泉码编码并合成了 72, 000 条短 DNA 单链,通过 Solexa 测序平台,对这些序列进行了测序
解读,并恢复了原始数据。2018 年,微软的 Strauss 团队编码合成了 200 MB 数字文件,并利用不
同扩增接头序列完成了随机访问,其解读平台也使用了 Solexa 原理。
需要注意的是,基于桥式扩增技术中 DNA 模板复制原理,类似核裂变中的链式反应(1 个 DNA
片段复制为 2 份,以 2 份为模板复制得到 4 份……)。这种指数型复制方式的优点是复制速度很快,
但以复制品为模板进行下一轮复制,过程中会产生复制错误并积累下来,可能会导致少量 DNA 信
息出现失真。
2.5.2 DNBSEQ 测序技术
DNBSEQ 测序技术最早始于 2006 年 Radoje Drmanac 等人发明的 DNA 纳米球技术,早期主要通
过 Complete Genomics 公司提供测序服务。2013 年,华大集团收购 Complete Genomics 公司,并
组织了一批国内外高精尖人才进行科研攻关,将该技术进行转化开发,成功于 2015 年推出第一台
具备中国自主知识产权的基因测序仪 BGISEQ-500,并于 2016 年实现规模化量产,同时成立专注
全套生命数字化设备和系统解决方案的华大智造(MGI),并在随后的 5 年时间里陆续发布了多款
不同通量的基因测序仪,包括 MGISEQ-200、MGISEQ-2000、DNBSEQ-T7、DNBSEQ-Tx、DNBSEQ-E5 等。
DNA 纳米球技术包括 DNA 纳米球(DNA Nanoballs,简称 DNB)的生成、制备与加载。其中,
DNB 的生成和制备主要采用了单链环状 DNA(single-strand circular DNA, sscirDNA)和滚环复制
扩增(Rolling Circle Amplification, RCA): DNA 长链在超声波或酶的作用下随机打断后形成模
板 DNA 片段,在接头作用下连接成一个圆环,即 sscirDNA;然后,该圆环通过滚动复制,复制生
成的产物在空间上缠绕形成一个含有 300-500 份拷贝的纳米球 DNB;随后这些制备成功的 DNB 会
被均匀地加载到测序载片(Flow Cell)上并附着、固定在预制的纳米级活化位点上,形成规则阵
列(Patterned Array)。
以单链环状 DNA 为模板的滚环复制扩增技术很好地避免了复制错误积累的问题,其扩增原理
是:始终以原始的单链环状 DNA 为模版合成新的拷贝,全部拷贝在同一个位置上出现扩增错误的
几率极小,同时也有效地避免了 PCR 扩增错误指数累计的问题。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
89
DNA 存储蓝皮书
图 52:DNB 的生成、制备与加载过程原理示意图
B. Load DNB
A. Make DNB
滚环
复制
DNA 纳米球
DNBs
DNA 环
形文库
测序芯片
芯片上布满化学修饰位点
每个位点可共价固定一个 DNA 纳米球
DNBs
图释:以单链环状 DNA 为模板,在 DNA 聚合酶作用下进行滚环扩增,可将单链环状 DNA 扩增到 100-1000 拷贝,这一扩增产
物即 DNB,这一过程即 DNB 的生成与制备(Make DNB);DNB 在酸性条件下带负电,在表面活化剂的辅助下,通过
正负电荷的相互作用,被加载到测序载片中有正电荷修饰的活化位点的过程,即 DNB 的加载(Load DNB)。DNB 与测
序载片上活化位点的直径大小相当,尽可能避免了多个 DNB 结合到同一位点的情况,确保了 DNB 的有效利用率。
信息来源:华大智造整理
通过规则阵列(Patterned Array),DNB 在测序载片上的活性位点中呈矩阵网格排列,所有
活性位点间距保持整齐一致,每个位点只结合固定一个 DNB,可保证 DNB 之间的光信号不会相互
干扰,从而保证了测序的准确度,同时也提高了测序载片的利用效率,实现了极好的成像效率和
最优的试剂用量。这样的一张测序载片可以布置数十亿个活性位点。
2021 年, 华 大 智 造 推 出 了 一 种 新 的 DNB 制 备 与 加 载 技 术 MLG(Make DNB, Load DNB and
Grow),能够实现对于 DNB 更加精准的控制,增加拷贝数并增强信号,支持更长读长的测序和更
高质量的数据产出。不同于以往 DNB 在制备后直接将其加载到载片上、进行测序的方式,MLG 会
先进行少量的滚环扩增,形成较小的 DNB(即 Make DNB),并在其加载到载片上后继续对其进行
滚环扩增 (Load DNB and Grow)。这一点有效确保了在更长读长的测序模式下,DNB 信号可以更强。
图 53:华大智造测序原理之 MLG 技术示意图
信息来源:华大智造整理
在 DNB 加载至测序载片后,DNBSEQ 测序平台采用 cPAS 技术(Combinatorial Probe-Anchor
90 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
Synthesis,联合探针锚定聚合技术),将测序引物锚定分子和荧光探针在 DNB 上进行聚合反应,
同时利用高分辨成像系统对光信号进行采集、读取和识别,从而获得单个碱基的序列信息,然后
加入再生试剂、洗脱荧光基团,进行下一个反应、获得下一个碱基的序列信息。如此经过单端或
双端 50-150 次循环(循环反应数视读长而定),最后经算法将碱基序列信息组合成为完整 DNA 序列。
图 54:cPAS 技术原理示意图
聚合
拍照
洗脱
信息来源:华大智造整理
DNBSEQ 测序技术正是以上一系列技术的集大成者,不仅包括 DNA 单链环化和滚环复制扩
增 RCA、规则阵列 Patterned Array、MLG、cPAS 等关键核心技术,也包括华大智造基于分子共
标签技术和高通量短读长测序技术开发的 stLFR 单管长片段建库技术(stLFR, single-tube Long
Fragment Read)。通过 stLFR 技术,利用 DNBSEQ 测序平台既可以得到短片段 DNA 数据,也可间
接得到长片段 DNA 数据(达到几十 Kb),并且能区别父源或母源的单体型序列,且能在单管中完
成所有实验流程。
2019 年建国 70 周年之际,华大通过自主研发的阴阳双编码将开国大典的珍贵历史影像资料
转换成为 DNA 序列,保存在试剂管中。通过 DNBSEQ 测序平台对该试剂管中的 DNA 进行测序后,解
码还原的视频与原始视频内容一致。
图 55:对开国大典影像资料进行 DNA 存储测试
信息来源:2020 小蛮腰科技大会报道
版权所有 侵权必究
基因慧 www.geneclub.net.cn
91
DNA 存储蓝皮书
2021 年,华大团队针对自主研发的阴阳双编码进行了一系列的 DNA 存储数据恢复验证实验:
通过稀释获得不同浓度的样品,并基于 DNBSEQ 测序平台对每组样品进行测序解读。实验结果证
明,在平均分子数≤ 100 的情况下,数据恢复率仍能达到 88%。该成果于 2022 年发表于 Nature
Computational Science。
图 56:基于 DNBSEQ 测序平台的 DNA 存储数据恢复验证实验设计
信息来源:Ping et al., Nature Computational Science, 2022
2.5.3 单分子测序技术
单分子测序的主要技术路线包括零模波导孔技术(Zero Mode Waveguides,ZMWs)和纳米孔
(Nanopore)测序技术。该技术的特点是无需对 DNA 模板进行扩增,基于较长的读长(reads)
可以实现对 DNA 分子的实时检测。其中,零模波导孔技术是由美国公司 Pacific Biosciences(以
下简称 PacBio)研发。该技术采用光学模块,基于零波导孔,让光只能照亮固定了单个 DNA 聚合
酶/模板分子的纳米孔底部。零模波导孔是一个直径只有 10~50 nm 的孔,当激光打在零模波导
孔底部时,只能照亮很小的区域,DNA 聚合酶就被固定在这个区域。只有在这个区域内,碱基携
带的荧光基团被激活从而被检测到,大幅地降低了背景荧光干扰。目前,该公司已推出测序系统
PacBio RS System、PacBio RS II System、Sequel System、Sequel Ⅱ System 以及 Sequel Ⅱ e
System 等。
92 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 57:零模波导孔技术原理示意图
SingleMolecule
Resolution
As anchored
polymerases
incorporate
labeled bases,
light is emitted
A single molecule of
DNA is immobilized in
each ZMW
Epigenetics
Light Intensity
Directly detect DNA
modifications during
sequencing
Time
Nucleotide incorporation kinetics
are measured in real time
信息来源:PacBio官网,https://www.pacb.com/technology/hifi-sequencing/how-it-works/
纳米孔测序技术来自英国公司 Oxford Nanopore Technologies Ltd(以下简称 ONT)。该公司
在 2005 年正式成立,并于 2015 年正式面向市场出售掌上测序仪 MinION。其随后推出了可以用于
大型基因组和大规模人群测序的台式 GridION 以及高通量测序仪 PromethION。
图 58:纳米孔测序技术原理示意图
信息来源:Churko JM, Mantalas GL, Snyder MP, Wu JC. Overview of high throughput sequencing technologies to
elucidate molecular pathways in cardiovascular diseases. Circ Res. 2013 Jun 7;112(12):1613-23.
纳米孔测序技术的基本原理是当纳米孔灌满导电液时,两端加上一定的电压,分子模板通过
纳米孔生成可以测量的电流。当纳米孔的直径恰好只能容纳一个核苷酸(1.5 纳米)时,长达 1000
个碱基的单链 DNA 或 RNA 在电场作用下就会依次穿过这个纳米孔,引起电流强度的改变,由于四
种碱基空间构象不同,引起纳米孔电流改变的强度不同,四种碱基分别产生特定的电流峰值,以
此即可判断不同的碱基,实现高速实时测序。由于原始电流信号非常微弱,存在较多的噪声且具
有随机性,在碱基识别准确度等方面的表现低于目前主流的高通量短读测序技术。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
93
DNA 存储蓝皮书
针对纳米孔测序可能存在的高错误率这一问题,2021 年,Chen W G,Han MZ 和 Zhou J T 等人
在《National Science Review》发表的《An artificial chromosome for data storage》一文中采用
现代通信领域广泛应用的低密度奇偶校验(low density parity check, LDPC)码叠加伪随机序列,
设计了可纠正严重插入删节错误的高效编码方案,从头编码设计合成了一条长度为 254, 886bp 专
用于数据存储的酵母人工染色体,并在读出方面,利用纳米孔测序器件实现了碱基的快速读出与
无错恢复:由于碱基识别后的错误率高于 10%,包含严重的插入删节错误,为处理这些插入删节错误,
研究团队设计了一个融合生物信息处理中的组装与纠错的方案,进一步结合设计的可纠正插入与
删节错误的纠错码,最终实现了数据的无错恢复。
2.5.4 其他测序技术
根据 DNA 碱基结构上的不同,用电子显微镜来观察、区别,是最直接的物理测序思路。但是,
显微测序技术的发展目前仍停留在尝试阶段。
显微测序有多个技术发展方向,其中最有实现前景的是:单色像差校正双光束低能量电子显
微镜测序(Monochromatic Aberration-Corrected Dual-Beam Low Energy Electron Microscopy),这
项技术可以直接读取碱基序列,无需标记或任何修饰,也省去了样本制备环节,而且较低的能量
不会对核酸分子产生放射性损伤,错误率也较低。
2.5.5 测序技术评价
综上,作为 DNA 存储的关键环节之一,测序技术的发展为 DNA 存储的可行性和普及性创造了
方便快捷的条件和路径选择。但是,不可否认的是,目前在测序过程中也会存在一定的失真情况,
这会对还原 DNA 存储信息带来“噪声”。
清华大学研究团队建立了针对碱基突变、序列丢失等不同类型 DNA 存储信道噪声仿真算法,
并基于噪声分布仿真进行了编码算法优化:利用 iGeneTech 芯片高通量合成 ~1 万条 DNA 序列、
PCR 扩增,然后对该序列进行高通量测序,将测序后 reads 的链内噪声、链间噪声的统计结果与仿
真算法比较,最终 DNA 序列丢失与链内错误的噪声仿真结果,与实际高通量文库合成、PCR 后,
高通量测序的统计结果一致。
94 基因慧 www.geneclub.net.cn 版权所有 侵权必究
二、技术:DNA 存储的技术流程与进展
图 59:清华大学 DNA 存储信道的噪声分布仿真研究
Adjuster
Error
Profile
Exp Setups
Redundancy
...
Encoder
Synthesis
Decoding
Status
1234
Decay
DNA
Channel Model
PCR
Succeed
...
Decoder
1234
Sampling
Failed
Sequencing
信息来源:2022 年 1 月,DNA 存储前沿论坛,经原作者授权
此外,在具体的测序过程中还涉及到文库构建。例如 DNA 测序前的获取步骤中(Random
access),传统 PCR 扩增对原始 DNA 文库破坏严重,使其难以重复读取。因此通过改进 PCR、磁珠
分离等方法对 DNA 文库中的文件选择性地获取也是近年来的研究热点。
华盛顿大学研究团队将相近信息设计成相似结构,通过分子层面的相似性同时获取多条信息。
北卡罗莱纳州立大学研究团队通过调节 PCR 温度、时间、离子环境等条件,实现了文件的快速部
分获取,可用于快速预览文件等用途。此外,他们还借助 RNA 酶逆转录复制原始文库中的信息,
同时不影响原始文库中的 DNA 分子,提高了文库的重复使用能力。现今为止所有的测序技术都是
为生物研究所开发,所有测序过程都需要消耗 DNA 分子物质,因此合成量决定了信息的可被读出
的次数,这对于信息存储这一应用目的来说具有一定的挑战。
未来, DNA 存储技术将会与包括测序技术在内的其他 DNA 相关的技术联系更加紧密。Grass
等人于 2022 年在 Nature Communications 发表综述,认为 DNA 存储技术可与 DNA 计算、DNA 神经
网络结合,在传统 DNA 存储系统中引入逻辑单元,实现更加智能的信息管理和获取。随着相关研
究的日益丰富,以及测序技术的成熟发展,DNA 存储技术及产品将成为一项人人可及、人人普惠、
人人可选的常见存储方式之一。
版权所有 侵权必究
基因慧 www.geneclub.net.cn
95
三、应用:DNA 存储应用场景
三、应用:DNA 存储应用场景
3.1 概述
在数据爆炸式增长的今天,DNA 存储的超高容量能解决存储介质容量不足的问题。基于 DNA
存储的研发成果,可实现的应用场景:
●
大数据存储
●
新型数据加密
●
分子追踪系统
●
基于 DNA 计算的分子诊断
●
其他应用
图 60:全球数据增长趋势
全球数据增长
200
80%
180
70%
160
60%
Zettabytes
140
50%
120
100
40%
80
30%
60
数据产出
终端存储
核心存储
20%
40
10%
20
0
0%
2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025
信息来源:IDC、希捷
版权所有 侵权必究
基因慧 www.geneclub.net.cn
97
DNA 存储蓝皮书
3.2 大数据存储
数据总量基数大、种类多样、增长速度快是当前大数据的典型特征,如何集中存储大量数据
成为亟需解决的问题。因此,新型大数据存储须具备以下特征:
●
更大的存储容量
●
更高的访问性能
●
更低的总体拥有成本
●
低碳、绿色、节能、环保
图 61:数据分层模型
热数据
5%
性能需求
成本
保存时间
高
高
短
温数据
15%
冷数据
80%
介于高低之间
低
低
高
信息来源:深圳国家基因库整理
在当前技术条件下,存储介质各有所长。为了降低海量数据存储成本,企业通常通过建立分
层存储架构来优化存储空间。根据数据访问频率、IO 类型、性能需求等不同特征,把数据分为热
数据、温数据、冷数据等不同类型。经常访问的热数据保存在速度更快性能更好的存储系统,而
不经常访问的冷数据则存放在成本更低的存储上。
由于 DNA 存储信息密度高、保存寿命长、节能环保、读写速度慢、随机读写困难等特点,DNA
存储目前主要适用于冷数据的长期归档。因为 DNA 存储能大大减少碳排放,对于构建新型大数据
存储,实现数据中心绿色低碳。将发挥重要作用,具体体现在:
1)数据存放耗电。DNA 长期离线存放不消耗电量,相比磁带,硬盘等传统媒介,耗电量更小。
2)基础设施耗电。传统的存储媒介需要空调、加湿除湿器、UPS、电池、稳压器等配套设备的支持,
但这些设备会带来额外的电力损耗。与此对比,DNA 存储对基础设施的耗电需求更低。
3)土地资源占用。DNA 存储自身和配套基础设施的占地面积小,能在消耗有限的土地资源的
98 基因慧 www.geneclub.net.cn 版权所有 侵权必究
三、应用:DNA 存储应用场景
前提下,实现大量数据的存储。
4)制造材料环保。由于存储密度低,传统存储介质需要耗费大量材料来生产。同比 DNA 存储,
少量 DNA 即可存储大量数据,因此更加环保。
目前在 DNA 数据存储的应用上,国内联川生物与天津大学团队在微流控原位合成技术方面密
切合作,共同推动高密度 DNA 合成在数据存储方面的国产化应用。国外 IARPA 于 2020 年正式启动
分子信息存储项目,旨在利用合成 DNA 存储艾字节级数据,该计划将开发出能够同时向合成 DNA
介质写入数据和从中读取数据的新型设备,将艾字节级数据存储系统缩减到桌面尺寸,同时大幅
降低运营和维护成本,目标是在 3~5 年内实现商用。
其次,数据中心除了冷数据存储问题,如何搭建存储体系也是重点关注问题。针对数据迁入
和迁出的场景,DNA 存储体系的搭建可以借鉴腾讯云文件存储体系的架构的相关经验,相关数据
存储对策及关键技术如下:
●
腾讯云文件存储(Cloud File Storage)
腾讯云文件存储(Cloud File Storage)是腾讯云自主研发的安全可靠、性能及容量可弹性扩
展的共享文件存储服务。产品涵盖传统 NAS 存储及并行存储,在云厂商中首先推出百 GB 级超高
吞吐及千万级 IOPS 性能的文件存储产品,单个文件系统的存储量亦支持从 TB 级扩展到 100 PB,
充分满足各类规模基因分析的存储诉求。
1. 超高性能
腾讯云上的计算节点通过 NFS/SMB 协议或 CFS 私有协议,像使用本地文件系统一样使用 CFS
服务。CFS 提供的百 GB/s 超高吞吐及百微秒级的时延,使得基因测序过程中可以充分发挥计算节
点性能,减少读写数据耗时,降低测序时间与 TCO。同时,CFS 的精细化流控能力可以实现同时
为多用户提供无差别的高性能存储服务。
1)CFS 客户端实现了单客户端同时与服务端多连接,解决原生 NFS 客户端(NFSv3 及 NFSv4)
与服务端单连接导致的大量请求串行无法处理的问题,单客户端的性能最少 3 倍提升、最高可打
满计算节点网卡;
2)CFS 客户端支持服务路由缓存及直连能力,对接 CFS 内部自主高效的负载均衡能力,实现
一跳直达目标服务,缩短访问路径,将访问时延降低至百微秒级;
3)通过分工细致的队列系统及公平高效的调度策略,CFS 客户端提供了精准化流控管理及操
作级别监控能力,进一步提升了服务端 IO 隔离的精细度。
2. 弹性伸缩及服务高可用
CFS 采用全分布式架构,提供的通用系列(分布式文件存储)及 Turbo 系列(并行文件存储)
版权所有 侵权必究
基因慧 www.geneclub.net.cn
99
DNA 存储蓝皮书
均可提供高可用的存储及性能的无感知弹性扩展,跨平台的接口及访问协议可无缝对接多种基因
测序系统及应用。
CFS 单文件系统下存储容量可从 TB 级无感扩容至 100PB,吞吐及 IOPS 性能亦可按需弹性扩展。
实时在线的弹性扩容可以更灵活地满足基因测序海量数据存储及项目激增的性能需求;99.9% 的可
用性充分保障测序业务的连续性、减少因为基础设施异常导致的额外时间与金钱成本。CFS 支持
通过生命周期功能自动对数据降冷,进一步降低存储成本。可充分满足基因测序不同项目、不同
阶段对基础设施性能及成本需求。
1)CFS 分布式文件系统可并发读写多个实际物理磁盘,底层存储池可在区域内多服务节点上
自由挂载、卸载,容量亦可弹性配置、按需升级容量;且挂载、扩容、迁移过程均实现为在线热操作,
不影响用户使用。
2)CFS 文件存储为上层应用提供标准的 POSIX 语义、NFS 协议、SMB 协议、MPI 接口,可无
缝对接所有主流基因测序设备及应用。
3)CFS 用户文件系统命名空间使用静态哈希分区方式打散到多个 NAS Server 上,从而突破
单个 NAS Server 的性能限制;同时分布式接入层 NAS Server 采取 Active-Active 模式构建 , 提供
99.9% 的高可用。
●
对象存储 (Cloud Object Storage,COS)
对象存储(Cloud Object Storage,COS)是腾讯云提供的一种存储海量文件的分布式存储服务,
具有高扩展性、低成本、可靠安全等优点。通过控制台、API、SDK 和工具等多样化方式,用户可简单、
快速地接入 COS,进行多格式文件的上传、下载和管理。
在对象存储服务上,用户可以创建不同的存储桶,将文件存储在这个存储桶中,并进行上传 /
下载等操作。整个分布式存储架构由接入网关、接入服务、存储引擎三大部分组成,一份数据在
写入到对象存储服务时,会从网关接收数据流,然后由接入服务层进行路由转发到存储引擎侧,
最终在存储引擎侧会按照特定的算法切成多个数据块,分别写入到不同的存储介质中。目前在公
有云上,普遍是用磁盘,尤其是 12T、16T 等高密度磁盘存储数据。
COS 提供多种对象的存储类型:标准存储、低频存储、智能分层存储、归档存储、深度归档存储。
每种存储类型拥有不同的特性,例如对象访问频度、数据持久性、数据可用性和访问时延等。用
户可根据自身场景选择以哪种存储类型将数据上传至 COS。
100 基因慧 www.geneclub.net.cn 版权所有 侵权必究
三、应用:DNA 存储应用场景
图 62:存储类型的分类
标准存储
存储成本高 读写响应快
低频存储
存储成本适中 读写响应适中
归档存储
存储成本低
深度归档存储
读写响应慢
存储成本极低
读写响应极慢
信息来源:腾讯云提供,基因慧整理
不同存储类型的产品特征和适用场景如下 :
1)标准存储:支持低访问时延、高访问吞吐,可为用户提供高可靠性、高可用性、高性能的
对象存储服务,适用于实时访问大量热点文件、频繁的数据交互等业务场景。
2)低频存储:提供较低存储成本和较低访问时延。这种存储类型在降低存储价格的基础上,
保持首字节访问时间在毫秒级,保证用户在取回数据的场景下无需等待,高速读取,适用于较低
访问频率的业务场景。
3)智能分层存储:该类型的对象可存放在标准存储层和低频存储层两个存储层,COS 可根据
智能分层存储类型对象的访问频次自动在对应的两个存储层之间变换,无数据取回费用,可降低
用户的存储成本。智能分层存储适用于数据访问模式不固定的场景,如果业务对成本要求较为严格,
且对文件读取性能较不敏感,可以使用该存储类型来降低使用成本。
4)归档存储:可为用户提供高可靠性、极低存储成本和长期保存的对象存储服务。适用于需
要长期保存数据的业务场景。
5)深度归档存储:可为用户提供高可靠性、比其他存储类型都低的存储成本和长期保存的对
象存储服务。与归档存储的差别在于,深度归档的存储成本更低,但需要存储更长的时间。
在基因测序场景中,作为原始数据的 FASTQ 数据和比对后输出的 BAM 数据通常都需要长期保存,
便于后期持续挖掘价值,因此低频存储、归档存储 / 深度归档存储均可作为高性价比的存储方式。
标准存储鉴于其低访问时延、高访问吞吐的特性,更适合用于 VCF 数据的存储,便于临床医生、
科研专家进行变异分析和标注。
版权所有 侵权必究
基因慧 www.geneclub.net.cn 101
DNA 存储蓝皮书
回顾前文所述 DNA 存储特征,目前其主要优势在于信息密度高,存储成本有机会跟随超摩尔
定律快速降低,但读取写入速度慢。因此,在当前海量分布式存储系统中,DNA 存储技术的典型
特征与深度归档存储的业务模型和适用场景最为匹配,未来可以作为大规模冷数据的长期归档和
备份使用,但目前仍然存在较大的技术挑战:
1)数据持久性低
2)存储成本高
3)数据读写速度慢
4)适配现代存储系统
102 基因慧 www.geneclub.net.cn 版权所有 侵权必究
三、应用:DNA 存储应用场景
3.3 新型数据加密
除了财产信息、健康生理信息、生物识别信息、身份信息等私密信息外,由于 DNA 存储的高
存储密度、低能耗等特点,DNA 存储也可用于新型数据加密,包括个人及集体私密信息。
DNA 存储除了可以在数据中心作为超大容量归档存储,也可以用于个人加密存储私密信息,
或者重要物品的防伪。
个人私密信息包括财产信息、健康生理信息、生物识别信息、身份信息、网络身份标识信息等,
有可能会危及个人财产和人身安全。
对于敏感及高度机密信息,一般建议在离线设备上加密保存;为防止非法访问,通常使用隐
写和加密两种技术,利用 DNA 固有的高存储密度、高并行性、低能耗、体积小等特点,在隐写和
加密领域具有某些传统计算机无可比拟和替代的优越性。
隐写是将文本、图像、音频、视频或文件等敏感信息隐藏在某种界质中的技术,仅授权于特
定知情人。衡量隐写技术的主要指标包括信息容量、隐蔽性、不容易被篡改或伪造等。DNA 序列
以下特性可用于隐写和加密的载体,即称为 DNA 隐写:
●
DNA 的数据密度大,即使加上编码和数据冗余造成的消耗,DNA 存储在单位面积的数据量
上远超传统技术;
●
DNA 体积极小,隐秘性高。人造的 DNA 和自然的 DNA 序列几乎没有差异,很难区分到底是
否含有机密信息的人造 DNA;
●
当把带机密信息的 DNA 混在其他 DNA 中,几乎不存在篡改或伪造信息的可能;
●
DNA 可以和其他技术整合使用,应用范围更广。
图 63:DNA 隐写
转成 DNA 加密
封装 DNA
隐藏在眼镜
信息来源:深圳国家基因库整理
为了达到更高的安全级别,科学家们还常把 DNA 隐写与加密技术一起使用。一方面,可以在
机密信息转换成 DNA 序列信息之前用传统的 DES、AES、RSA 等算法进行加密;另一方面,也可以
用 DNA 计算直接实现加密。利用 DNA 本身的特征构建的密码系统包括依赖密码本序列,采用映射
版权所有 侵权必究
基因慧 www.geneclub.net.cn 103
DNA 存储蓝皮书
替换法或者异或法的一次一密加密,基于聚合酶链式反应(PCR)引物作为密钥的加密,和利用
DNA 探针进行对称和非对称加密等。
自 2009 年比特币诞生以来,加密货币的规模越来越大,成为越来越多人的财富重要组成部分。
私钥作为加密货币所有权的唯一凭证,是非常重要的私密信息,必须进行备份,以防丢失。DNA
存储作为一种使用寿命长、与时俱进的新兴技术,是极具潜力的备份方案。叠加 DNA 隐写和加密
等特性,私密信息可以长期存储在只有知情者可以获取的地方。随着 DNA 合成的测序成本的下降,
人们更倾向于 DNA 存储来存放私密信息。
除了个人私有存储,DNA 隐写和加密还可以用来取代生活中常见的条形码、二维码和防伪认
证标签。基于 DNA 的信息存储技术可以创建比传统方法更小、更难发现、更难篡改的新型标记系统。
与传统的方法不同的地方在于,DNA 标签无法通过视觉或者触觉的方式来发现,在高价值产品的
防伪方面能起重要的作用。另外,DNA 存储可以在多种应用和技术上相兼容。
隐写术可应用于军事、金融等:
在军事应用层面,美国科学家曾在 1999 年发表过“DNA 隐写术”的文章。研究人员将“JUNE
6 INVASION:NORMANDY”这段历史上的军事密令转化成 100bp 左右的 DNA 信息,然后将该 DNA 与
30 亿 bp 的垃圾 DNA 信息混合,起到情报保密的作用。
在金融应用层面。美国初创公司 Carverr 推出将数字货币密码存储在 DNA 中的服务,以保护
数字货币财产,目前仍与银行和其他大型加密货币控股公司进行谈判,以扩大服务范围。
104 基因慧 www.geneclub.net.cn 版权所有 侵权必究
三、应用:DNA 存储应用场景
3.4 分子追踪系统
2008 年,D. Onoshima 等研究人员曾基于酶促反应,使用微流控系统来追踪单个反应物 DNA 分
子轨迹,并成功证明该方法可以应用于 DNA 和蛋白质,奠定了分子追踪系统成为应用方向的基础。
分子追踪技术是利用高分辨荧光显微镜对细胞内单个特定分子进行定位和追踪。
图 64:追踪 DNA 分子对酶促反应的轨迹
Reaction
products
QD-tagged
DNA
Microchannel
flow
Enzyme
area
(a)
(b)
图释:(a) 通过检测单个 DNA 分子运动对酶促反应中的时间序列分析 (b) QD 标记 DNA 的 CCD
图像中的一帧,圆圈表示单个反应物 DNA 分子。
信息来源:Onoshima et al., Proc. Micro Total Analysis System, 2008
除了微流控系统,还可以应用分子标记技术进行分子追踪。分子标记是一种使用 DNA 或其他
分子标记物理对象的方法。来补充或替代传统的条形码、二维码等,而这些标签不能用于追踪数
量太多或者太少的对象,并且价格昂贵。2020 年华盛顿大学和微软研发出新型“条形码”——“豪
猪”分子标签系统,可用于二维码无法适用的微小物体上,且通过便携式设备在几秒钟内进行解码。
图 65:“豪猪”分子标签系统
信息来源:Doroschak et al., Nature communications, 2020
版权所有 侵权必究
基因慧 www.geneclub.net.cn 105
DNA 存储蓝皮书
根据华盛顿大学和微软的研究报告:
●
在豪猪系统中,数字标签的二进制 0 和 1 由 96 个“分子比特”中的每一个“存在”和“不
存在”表达;
●
用户可以任何混合现有的链,并快速创建新的标签;
●
在保存方式上,在初始标签组装期间准备好用于读取的熔块,进行脱水处理以延长标签的
保质期;
●
DNA 标签系统安全性高,很难被篡改。
DNA 存储技术的研发和应用进展使得对分子轨迹进行追踪得以实现,并以此诞生多样化的技
术,并且应用于食品安全、司法、医疗健康等。
106 基因慧 www.geneclub.net.cn 版权所有 侵权必究
三、应用:DNA 存储应用场景
3.5 基于 DNA 计算的分子诊断
DNA 计算是新兴的计算技术。包含信息学、数学、物理学、纳米领域等学科,由于其 DNA 分
子的高密信息存储能力、强大的并行运算能力和分子识别能力,具有巨大的应用潜力,目前正处
于早期研究。
根据上海交通大学研究团队成果,DNA 分子计算是基于平行计算的原理。若把一对 DNA 分子
互补碱基的计算能力理解为 1 的话,1uM 的 DNA 序列可以平行计算大约 1017 的数据量。借助 DNA
超大数据平行计算容量,DNA 计算可以在一秒内完成比现有的超级计算机更多的操作,若结合 DNA
的平行计算能力和分子识别能力,则可实现精细、智能和复杂的分子计算。
图 66:基于 DNA 计算的肿瘤分子诊断流程图
1h
lsolation
Clinical
Serum
Sample
miRNA
2.5 h
1.5 h
Amplification Transformation
ssDNA
Loop DNA
1h
DNA Computation
Cancer
Healthy
DNA Computation
probes
信息来源:Zhang et al., Nature nanotechnology, 2020
基于以上理论,韩达课题组发展出 DNA 计算的肿瘤分子诊断技术,步骤如下:
●
首先利用 TCGA 数据库中肺癌 miRNA 表达谱进行机器学习模型训练,获得了一组非小细胞
肺癌高度相关的特征 miRNA 以及对应权重的分类模型;
●
其次,将血清中微量特征的 miRNA 通过线性扩增放大到 nM 数量级;
●
随后通过成环反应将 miRNA 序列转换成长链环状 DNA;
●
最后通过 DNA 计算使之有肺癌或健康一种特征的信号分子被放大并产生报告信号。
相对于传统的技术,基于 DNA 计算的分子诊断技术拥有强大的并行计算能力和分子识别能力,
一旦成熟应用,将是对临床分子诊断是重大的变革。目前仍处于理论完善及科研阶段。
版权所有 侵权必究
基因慧 www.geneclub.net.cn 107
DNA 存储蓝皮书
3.6 其他
除上述提到的应用以外,DNA 存储还有更多的想象空间,以下将从这几个应用展开,DNA 电子
简历、体内 DNA 存储、DNA 记录器、万物 DNA。
●
DNA 电子病历
在医学植入物中,患者数据和植入物信息被保存到长期的“DNA 电子病历”。当植入物损坏,
只需要从植入物中提取保存的信息,即可重新生成独一无二的植入物。植入物一生跟随着病人,
不存在档案信息保管不当丢失重要信息无法还原的问题。
●
体内 DNA 存储
迄今为止,大多数 DNA 存储的尝试都是在体外进行的。这主要归功于当前 DNA 测序和合成技
术快速发展,体外存储在通量、操作便利性等方面更有优势。但实际上人类第一次实现 DNA 存储
的概念验证,是将数据编译写入大肠杆菌,也就是说是在细胞内完成的。体外 DNA 存储依赖于体
外 DNA 合成,通过溶液、干粉或二氧化硅等形式保存,但借助细胞实现体内 DNA 数据存储可能在
合成速度、合成成本方面会更有优势。细胞内 DNA 存储可以利用生物自身的功能,比如细胞自身
DNA 复制和校对的机制、细胞能使 DNA 免受环境干扰的能力等。
细胞体积较大,导致了体内 DNA 存储密度低于体外 DNA 存储,但其在体内的特点又有着独特
的优势。一方面,有了体内 DNA 存储技术,未来可以通过人体或者其他生物携带数据,每个生命
体都可以成为一个超大容量的移动硬盘。另一方面,某些体内 DNA 存储的读写是借助基因编辑技
术实现的,进一步扩展了基因编辑技术的应用,从农业分子育种、畜牧业繁殖、生物多样性保护、
解决人口粮食问题、工业生物合成等。
●
DNA 记录器
体内 DNA 存储除了可以记录人类创作产生的数据,还可以记录细胞事件和细胞所在的生存环
境信息。科学家们已经研究出这种可读写 DNA 的生物感应器原型,可以在不影响生命体正常运作
的前期下,长期跟踪记录分子事件,连续记录细胞活动,以供研究使用。比如:
1. 可以记录肿瘤的发展过程以及环境信息,揭秘肿瘤的形成机制。
2. 改造土壤或水中的细菌,用来检测和记录毒性物质、微量元素等。
3. 用来绘制人类大脑活动图谱。
108 基因慧 www.geneclub.net.cn 版权所有 侵权必究
三、应用:DNA 存储应用场景
图 67:DNA 记录器原理图
Cell population
a
Signal sensing
Sensor
DNA writing
DNA reading
Writer
Signal
Multicellular
Cell
Unicellular
Actuation
信息来源:Sheth et al., Nat Rev Genet., 2018
●
万物 DNA
“万物 DNA”(DNA-of-things)来源于“物联网”,本质是通过 3D 打印具有 DNA 编码信息
的新型信息介质作为“记忆”的物体。具体来说是将 DNA 封装在二氧化硅中,并将含有 DNA 的二
氧化硅封装物料融合在其他材料,并进行 3D 打印。将 3D 打印的物体取出进行部分溶解,得到含
DNA 的微珠材料,通过 DNA 提取、PCR 和测序,即能提取编码信息。
科学家们曾经用 3D 打印制作了一只兔子(斯坦福兔),并将制作这个兔子所需要立体光刻文
件数据写入 DNA 片段,然后封装在大小为 160 纳米的二氧化硅小球上,嵌入制作兔子的热塑性聚
酯材料中。就像生物可以从组织中提取 DNA 来克隆“重生”,科学家们从这只兔子耳朵处剪下部
分打印材料,从中提取出 DNA 还原其中存储的数据,并最终完整克隆出一模一样的兔子,实现一
代代不断复制。
图 68:DNA 封装 3D 光刻文件数据制作兔子原理图
a
DNA code stl file
Binary stl file
1001100011
1010100010
1110110100
1110100100
1001001001
Encode
with DNA fountain
DNA
encapsulation
Sequencing and decoding
with DNA fountain
PCR
DNA extraction
Filament extrusion
Printing of 3D object
信息来源:Koch et al., Nature Biotechnology, 2020
版权所有 侵权必究
基因慧 www.geneclub.net.cn 109
四、展望:
产业发展机遇及关键点
四、展望:产业发展机遇及关键点
4.1 DNA 存储产业发展的机遇
4.1.1 BT 和 IT 融合的典范,利用 BT 突破 IT 的天花板
“DNA 信息存储技术是利用生物技术(BT)来突破信息技术(IT)的天花板,是用 BT
来解决 IT 领域的难题。利用 DNA 信息存储,能够使人类的数据与文明被亿万年保存下来。”
——中国科学院计算技术研究所的孙凝晖院士
2021 年 2 月,科技部发布“十四五”国家重点研发计划“生物与信息融合 (BT 与 IT 融合 )”
重点专项,聚焦未来生命科学、医药健康产业和经济社会发展等重大需求,引领新经济模式发展。
DNA 存储是其中三项任务之一。方向包括:
表 17:“十四五”重点专项“生物与信息融合 (BT 与 IT 融合 )”中 DNA 存储研发方向及指标
开发方向
指标
DNA 分子信息存储的高加密性编码与信息安全
恢复率≥ 90%,10 个拷贝的最低DNA分子数,1%读写容错率,
体系研究
K ≥ 128 的密钥强度,防复制、防篡改的类区块链方法等
基于多类型生物分子的超高密度信息存储
技术研发
净信息密度≥ 3.8 bits/nt,数据保真度≥ 99.9%,生产级(kg
级)低成本适配碱基单体制备,>200nt 的高效扩增,验证通
量大于 10M 碱基等
搭建配套芯片,兼容兼容 CMOS 或 MEMS 工艺,合成阵列达
大规模可寻址可控催化 DNA 合成技术研发
1000 万单元 /cm2,单元间的合成交叉干扰几率 <3%,可控合
成长度 >40nt
超高通量单分子晶体管测序技术研发
实现测序单元的核心器件,可达单分子灵敏度,数据采样频
率高于 1MHz
信息来源:科技部;基因慧整理
通过以上具体的研发方向(也是未来产业化和应用基础设施),可以看到 DNA 存储技术集成
光电、DNA 测序、DNA 合成、生物材料、信息编码,实现数字和生物信息的双向流动,是 BT 和 IT
融合的典范,如同元英进院士所言:“(DNA 存储是)突破半导体和合成生物学的瓶颈,实现研
究范式和路径变革”:
●
半导体发展瓶颈:功耗极限、小尺度工艺成本、投资回报
●
合成生物发展瓶颈:通量、成本、功能扩展、工程理念
●
BT 和 IT 交叉融合:生命信息的小尺度、低功耗吸引半导体领域仿生设计;半导体技术应
用扩展到生命科学
版权所有 侵权必究
基因慧 www.geneclub.net.cn 111
DNA 存储蓝皮书
图 69:DNA 信息存储与现代存储系统的融合
写入端
开放系统互联
参考模型
存储系统
分层模型
读出端
应用层
表示层
应用层
表示层
会话层
会话层
传输层
传输层
网络层
网络层
数据链路层
数据链路层
物理层
物理层
存储系统
分等级架构
应用层
分布式存储、
云存储、纠删、
去重复等
信息可靠高效的
表示与编码
合成、扩增与测序等
各类 DNA 存储模式
介质
SSD
第1级
高性能数据应用
HDD
第2级
在线数据
HDD/TAPE
第3级
TAPE/CD/DNA
第4级
非实时
归档
信息来源:韩明哲等 , DNA 信息存储:生命系统与信息系统的桥梁,合成生物学 , 2021
DNA 存储有望满足大数据海量存储及安全需求,应对半导体和生物技术面临的趋向成本和效
率极限的挑战。
在工程设计驱动 DNA 存储方面,例如元英进教授团队研发的“酵母 CD”——数据存储人工染
色体,可以使用纳米孔测序读出,实现高效纠错,编码碱基数超过 24 万,而之前的研究在单个细
胞内用于存储数字信息的部分仅有几千碱基;深圳华大生命科学研究院研发的 YYC 阴阳双编码系
统通过 in vivo 酵母细胞存储,实现信息存储密度 432.2 艾字节 / 克(接近理论值)。
在 DNA 存储驱动半导体发展方面,通过 DNA 存储研发 28nm 工艺的大规模微电极阵列芯片。
电子元件和分子元件的结合,是 DNA 存取一体化、更为复杂操作的 DNA 存储体系的基础。2019 年,
微软公司和华盛顿大学研发的 DNA 数据自动读写装置模型,是首个实现端到端的集成 DNA 存储系统,
使用定制的计算机芯片自动移动液体,使得软件能够访问到 DNA 储存的生物学信息。
4.1.2 推动未来生命科学的关键共性底层技术——DNA 合成
十九届五中全会提出“优化学科布局和研发布局,推进学科交叉融合,完善共性基础技术供
给体系”的要求。上文提到的 BT 和 IT 融合即是“学科交叉融合”,“共性基础技术”即是 DNA
合成和 DNA 测序,尤其是 DNA 合成,它不仅是 DNA 存储的核心技术,也是生命科学及其相关领域
发展的关键共性底层技术。
●
从 DNA 测序、DNA 编辑到 DNA 合成,完成从“读”、“写”到“存”的跃迁。DNA 合成技
术包括化学法合成、酶促法合成和连接法合成等方式,结合了生物化学、分子生物、光电材料等
跨学科技术,是目前 DNA 领域较为前沿和复杂的技术之一
112 基因慧 www.geneclub.net.cn 版权所有 侵权必究
四、展望:产业发展机遇及关键点
●
DNA 合成是合成生物的关键共性底层技术。合成生物依赖 DNA 合成建立更加精密的人工生
物学系统;同时随着 DNA 合成技术的逐步成熟,正加速合成生物突破大规模产业化瓶颈,朝着工
程化、设计化、精细可控的方向发展
●
DNA 合成是基因合成、疫苗和生物医药研发、快速检验试剂盒、工程菌改造等领域的关键
底层技术之一
4.1.3 提高数据存储效率和安全,赋能产业数字化与碳中和
随着《“十四五”数字经济发展规划》的发布,数字基础设施将成为新兴基础设施。根据工
业和信息化部发布的《中国数字基建的脱碳之路:数据中心与 5G 减碳潜力与挑战(2020-2035)》
报告,数字基础设施的碳排放“锁定效应”将成为我国实现“碳中和”的重要挑战。2035 年,预
计我国数字基础设施用电量将占全社会用电量的 5%-7%,约占中国碳排放量的 2%-4%,相当于目
前两个北京市的二氧化碳排放量。互联网数据中心(Internet Data Center, IDC)必须转型到超低
能耗存储技术转型。
而 DNA 存储不仅基于可再生资源介质,而且是超低能耗、超高密度、超稳定的存储系统:
●
超高密度:在存储密度提升 6-7 个数量级
●
超低能耗:仅需冰箱保存所需电量
●
超稳定性:半衰期为 521 年,抗冲击、抗电磁波;可去中心化存储,分子加密方式灵活
4.1.4 DNA 计算和 DNA 网络
DNA 除了存储信息外,由于它的非周期性材料属性,为分子编程提供了丰富的工具箱,这为
BT 和 IT 开发者提供了新兴载体,从 DNA 开关、DNA 计算到 DNA 网络等。目前这一领域处于极其早
期,但是由于 DNA 的特点,可以实现高性能架构设计和单分子动态成像,而具备极其广阔的前景,
包括具备存储、计算功能的生物传感器等:
●
基于 DNA 存储记录微小分子事件(例如细胞膜蛋白的相互作用)(Fahim Fazadfard,
Science,2018,361 )
●
基于 DNA 计算进行分子诊断
●
利用 DNA 纳米技术工具箱实现 DNA 分子间反应的可编程控制(Han,Nat. Nanotec.,2020,
●
不需要测序和人工辅助,一次测量所有血型基因型
●
基于 DNA 开关进行逻辑运算(Wang,F., Nat.Commun., 2020,11)
●
DNA 分子开关控制 CRISPR 活性 (Hao,Y., Angew. Chem.Int.Ed.2020,59)
●
基于单分子荧光信号动态测定单分子反应动力学和局域分子运动状态(Nat.Materials,
15)
2019,18;Science Adv.,2020,6)
版权所有 侵权必究
基因慧 www.geneclub.net.cn 113
DNA 存储蓝皮书
4.2 未满足需求与关键问题
目前 DNA 存储还处于技术研发的阶段,技术驱动 DNA 存储产品化和产业化。
从技术层面,酶促合成和化学合成(包括光化学合成及电化学合成)均有各自的优劣,整体上,
高通量 DNA 合成在规模化生产及应用前,仍需克服一系列的关键问题。为实现技术可及性,满足
规模化生产及应用的需求,DNA 存储短期要解决仪器层面的合成成本及效率,长期要解决芯片层
面的算力成本。
根据基因慧的相关调研,目前 DNA 存储未满足的需求及关键问题罗列如下。
4.2.1 DNA 合成及存储成本高
目前平均来说,合成寡核苷酸的成本约为 10-3 美元 / 碱基,存储 1TB 数据约需要 10 亿美元,
以第二代测序为例,单个样本的数据量动辄就达到 TB 级。而随着基因研究技术进步,生物信息数
据的存储计算需求每 12 到 18 个月就会增长 10 倍,这对存储系统可扩展性以及存储成本提出巨
大挑战。根据国内外机构与专家的评估,规模化应用前至少需要下降 8 个数量级,即到 100 美元 /
TB 碱基。
价格 /(美元 /GB)
图 70:存储介质的成本对比
1012
1011
1010
1089
107
106
105
104
10
103
1012
10
1
10 -1
10 -2
10 -3
DNA 芯片合成
2×10 -3 美元 /nt
当前成本
硬盘
软盘
分子信息
存储技术
(MIST)
计划目标
DNA 存储
内存
108
寡核苷酸池
合成价格
(2019)
达到硬盘
存储成本
2×10 -11 美元 /nt
10 -1
10 -12 美元 /nt
1957
1967
1977
1987
1997
2007
2017
2027
当前 Twist 合
成净成本
年份
信息来源:韩明哲等,DNA 信息存储:生命系统与信息系统的桥梁,合成生物学 , 2021
解决路径仍在探索中,专家提出的一个思路是学习高通量测序,采用并行化的思维。例如深
圳华大生命科学研究院正在研发的基于分选原理的高通量芯片合成仪,独立载体实现并行合成,
未来将积极降低成本;中国科学院武汉病毒研究所的研究团队提出基于生物法 DNA 合成技术路线
(获得国家重点研发项目立项)。以上两种方法理论上成本可降低 5 个数量级。
114 基因慧 www.geneclub.net.cn 版权所有 侵权必究
四、展望:产业发展机遇及关键点
中 国 科 学 院 深 圳 先 进 技 术 研 究 院 戴 俊 彪 表 示(DAI Junbiao. Synthetic Biology Journal,
2021),利用通用合成的 DNA 片段,基于类似于“活字印刷”的原理来存储数据信息,也可能是
一种非常有效的降成本方式。比如将英文的 26 个字母分别存储在通用合成 DNA 上,然后通过酶拼
接或者其他方法,在存储信息时,进行自由组合,进而反复使用一次合成的 DNA 分子,能够潜在
地降低成本。
4.2.2 DNA 存储的准确率不高
DNA 存储的准确率不高是除了成本之外最大的问题之一,原因有多方面,包括寡核苷酸的合
成与组装过程的错误、DNA 测序准确率、PCR 扩增偏好等带来的不稳定性等等。
(1)合成错误率
中 国 科 学 院 深 圳 先 进 技 术 研 究 院 戴 俊 彪 表 示(DAI Junbiao. Synthetic Biology Journal,
2021),化学寡核苷酸合成常常伴随着较高的错误率。由于盖帽不充分、反应试剂纯度不够、反
应环境湿度太高、酸处理时间过长、偶联时间不够等多方面原因,合成会出现碱基缺失、突变等
多种错误。然而合成错误率并不是限制因素,可以通过纠错算法来更正。
深圳华大生命科学研究院研究团队在文章 (SHEN Yue,Synthetic Biology Journal, 2021, 2(3))
中表示,常规 DNA 合成的错误率为 0.1-0.3% 左右,而大片段 DNA 组装合成中错误率会更高。
(2)测序错误率
图 71:PCR 扩增偏好问题示意图
信息来源:Lin et al., Nature Communications, 2020
尽管目前的错误率已经低至 10-3 数量级,但相对商业硬盘的读写错误率仍相差至少 9 个数量级。
版权所有 侵权必究
基因慧 www.geneclub.net.cn 115
DNA 存储蓝皮书
主要原因是测序技术本身的局限,需要依靠提高测序深度来达到高准确率,包括高通量测序中的
PCR 偏好及单分子测序中引入的插入缺失问题。
图 72:动态操作和可重复使用信息存储 (DORIS) 的系统
信息来源:Lin et al., Nature Communications, 2020
对于高通量测序中的 PCR 偏好问题,例如北卡罗来纳州立大学研究团队开发了一种动态操
作和可重复使用信息存储 (DORIS) 的系统,无需 PCR,使用由单链 DNA 组成的“悬垂”而非双链
DNA 作为引物结合序列,在室温下可以工作,将 DNA 转录为 RNA,然后通过反向转录来读取的数
据存储系统 DNA。此外,单链”悬垂”也可以修改,允许用户重命名文件、删除文件或”锁定”
文件,从而有效地使其他用户看不到这些文件。
对于单分子测序的错误率以及包含难以处理的插入与缺失错误问题,天津大学研究团队从头
设计合成了一条 254 886 bp 的存储专用染色体,其中数据编码部分占 95.27%,将单菌内数据存储
DNA 数量提升到了百 kbp 级,存储了 37.8 KB 图片、视频以及文字。采用叠加编码方案,有效克服
三代测序的高错误率问题,实现了数据的可靠恢复,这项工作突破性地将单菌内数据存储 DNA 数
量提升到百 kbp 级(YUAN Yingjin et.al., Synthetic Biology Journal, 2021, 2(3): 309-322))。
(3)寡核苷酸拼接过程中的 PCR 局限
由于 PCR 扩增偏好问题,高温 PCR 扩增酶对于高 GC 或者高 AT 区的扩增困难,以及高 GC/AT
和高重复序列会增加不同寡核苷酸或 DNA 片段的错配,从而导致组装失败;通过常规 DNA 合成的
错误率分析。通过往 PCR 体系中添加 GC 扩增增强剂、优化 PCR 程序以及在寡核苷酸设计时避免将
这些区域包裹在重叠区内等方式,能够一定程度解决这些问题。
解决 DNA 合成及测序的错误率问题,除了以上方法,常见的解决方式是纠错编码,在插入 /
删除 / 替换错误各 1% 的情况下,大多数转码方案的原始数据恢复率都在 97.05% ~ 98.62% 之间。
116 基因慧 www.geneclub.net.cn 版权所有 侵权必究
四、展望:产业发展机遇及关键点
深圳华大生命科学研究院研究团队表示(SHEN Yue,Synthetic Biology Journal, 2021, 2(3))合成
错误、测序深度、PCR 随机性等会造成 DNA 分子的突变或者丢失。这些突变和丢失通常分为系统
误差和随机误差。在 DNA 存储中,随机误差一般由测序产生,而测序过程的随机错误通常可以用
序列比对的方式进行相互校正,但系统误差一般由合成或分子生物学操作产生,无法通过常规测
序数据处理方式进行校正。而常规纠错编码可以有效纠正少量的替换错误,但插入删除错误及分
子丢失无法纠正。
4.2.3 DNA 读取速度慢
南方科技大学研究团队在《DNA 数据存储前沿论坛》中表示,相对固体硬盘(550MB/s)和机
械硬盘(160MB/s),目前 DNA 读取速度至少还相差 3-4 个数量级。例如 MinION 测序芯片的速度
为 56KB/s,Illumina 主流测序仪的速度为 5-500KB/s。
解决的方向,一方面亟需测序仪本身的迭代优化;另一方面发展存取一体化系统。
4.2.4 大片段基因合成组装长度的局限
由于寡核苷酸拼接组装中的碱基仍存在一定的错误率,为减少首次克隆筛选获得正确克隆的
工作量,通常从寡核苷酸直接拼接组装的基因长度会控制在 3 Kb 以内。对于更长的基因合成,
则将首轮克隆筛选获得的正确的基因片段组装成更长的片段。一系列方法被应用其中,如 Golden
Gate 组装、Gibson 组装、循环 LCR、双引物 TPA 组装、BioBrick 组装等。其中 Golden Gate 组装法
和 Gibson 组装法,在大片段基因合成组装应用上相对成熟。
4.2.5 存取集成自动化不足
尽管短期内 DNA 存储的应用场景是冷存储,但长期而言需满足热存储的快速随机访问等需求。
而目前 DNA 存取集成自动化不足,2019 年微软和华盛顿实现的端到端的集成 DNA 存储系统,5 字
节读写消耗 21 小时;同年,美国 Catalog 公司实现 16GB 维基百科的信息存储,采用预合成的 DNA
进行长链组装,未整合信息读取(测序)系统。
这主要因为 DNA 合成设备尚未完全成熟;另外,DNA 合成、DNA 测序、信息操作系统等各功能
模块间接口适配不成熟。解决这个问题的方向是集成化,例如蒋兴宇教授研发离心式微流控平台
开发,以及深圳华大生命科学研究院研发的 Chamaeleo 编解码集成系统、结合高通量合成仪、高
通量测序仪、自动化样本库等读写存系统一体化解决方案。据悉,该一体化解决方案目前基于华
大智造自动化产线 MGIGLab 系列,已在开发中。
版权所有 侵权必究
基因慧 www.geneclub.net.cn 117
DNA 存储蓝皮书
4.2.6 BT 和 IT 的战略协同合作
DNA 存储是 BT 和 IT 交叉融合学科,也是光电、生化、材料、分子生物等产业融合的领域,
涉及技术及产业链纷繁且复杂。从目前的研发原型到量产,需要代表测序、合成、算法、架构等
领域的专家及团队通力协作。这需要 BT 和 IT 领域的决策者的重视和战略协同。
118 基因慧 www.geneclub.net.cn 版权所有 侵权必究
四、展望:产业发展机遇及关键点
4.3 发展方向
4.3.1 更高效的存取一体化体系
突破目前介质的存储密度极限和高能耗等问题,实现新型的 IDC(互联网数据中心)模式,包括:
●
可稳定存储大规模数据的持久存储体系
●
支持快速读取、随机访问的存取一体化体系
●
高度集成化自动化系统等
4.3.2 更有效的编码算法和信息载体
由于 DNA 测序、合成等平台的局限,对于准确率不高的信息纠错是重大的挑战。解决方向包
括编码算法和载体两方面。
编码算法方面,需要迭代低复杂度、纠错、索引、压缩算法等。例如中国科学院深圳先进技
术研究院合成生物研究所、中科碳元研究团队研发的“悟空”编码算法,容纳超过 20 万亿种编码
规则,通过自然语言处理(NLP)人工智能算法实现 DNA 存储纠错。
载体方面,中国科学院武汉病毒研究所研究团队提出,发展多元的信息编码载体,包括 DNA
序列(DNA 分子、类 DNA 分析)、DNA 结构(二级结构单元、DNA 组建)、DNA 反应(分子反应产
生的光电信号)等。
4.3.3 更复杂的数据操作和算法优化
在数据操作方面,例如莱思大学研究团队研发了编码、复制、擦除和解码 DNA 分子中的信息
的方法,还提供了包含其序列编码信息的 DNA 分子的组合物。
在大规模数据的算法优化方面,非线性计算成本高,信息编码需具备系统的编码结构和线性
复杂度,进一步降低错误率;同时结合多个编码提高恢复数据比例,例如,天津大学研究团队采
用 DNA-LM 码与 RS(255,223)码级联模拟存储,可 100% 恢复数据。
4.3.4 DNA 操控与生化反应小型化
2019 年微软公司和华盛顿大学研发的 DNA 数据自动存储器,虽然不依赖人为控制,但是占地
面积大,不便于规模化生产。DNA 存储的小型化、集成化是必然方向。
例如南方科技大学研究团队研发基于离心式微流控平台的 DNA 数据光盘:
版权所有 侵权必究
基因慧 www.geneclub.net.cn 119
DNA 存储蓝皮书
●
利用微流控原件(微泵、阀、混合器等),操纵纳升级的液体
●
可对样本完成前处理、纯化、分离、分析等过程
●
芯片上完成合成、纯化、修饰、扩增、测序等化学反应
●
可单独寻址、随机访问的正交开闭、3 小时存储 153TB(3x7cm2)
可以实现一步式 DNA 分检(Anal.Chem.2020,92,14846-14852)、单核苷酸多态性(SNP)
快速索引(Chem.Sci.2021,12,4455-4462)、动态多重免疫分析(Lab Chip,2019,19,2750-2757)
以及高灵敏度蛋白质检验(Biomedical Microdevices,2019,21(3))等。
除了 DNA 存储装置的小型化,未来可以想象进一步结合可穿戴金属高分子导体(MPC),用于
电子血管、智能 T 恤等。
这类成果还包括上海交通大学研究团队的研发的 DNA Origami 纳米芯片等。
4.3.5 分子电路和数据调控
DNA 作为非周期性晶体,它的材料属性为分子编程提供了丰富的工具箱,特别是未来期待的
分子电路以及基于此的数据调控。通过分子信息处理,将分子行为的无序性转化为信息的确定性。
从哈密尔顿路径、逻辑门电路发展到图像识别,未来的迭代方向之一是分子计算机。而基于
DNA 链计算和细胞逻辑,不仅可完成数据索引和计算,还可以进行空间搜寻、数据调控、数据加
密或数据自毁。
目前的 DNA 分子网络仍在非常早期的研发,但运算能力逐步提升,从加、减、乘到开根号到
解一元二次方程。
优化方向包括基于 DNA 开关电路、纳米限域反应网络的高性能架构设计;基于单分子动态成像,
包括时域上基于单分子荧光信号动态测定的单分子反应动力学(Nature Materials,2019,18,273),
空域上基于单分子定位的分子运动动态(Science Advance,2020,6,Wang,F),亦可以应用基于
单分子逻辑门控制活细胞染色体成像。
上海交通大学研究团队表示:简化分子算法,减少非特异碰撞;引入空间限制,降低自由度
等均可以不同程度提升或优化 DNA 分子网络的运算能力。
4.3.6 更多样的分子存储介质和创新的存储硬件体系
北京大学研究团队提出(QIAN Long,Synthetic Biology Journal, 2021, 2(3):)除了 DNA 之外,
其他碳基存储介质也展现了信息存储能力,包括混合碱基、代谢组存储、蚕丝蛋白等更多样的分
子存储介质等以及芯片上的存储硬件体系。
120 基因慧 www.geneclub.net.cn 版权所有 侵权必究
四、展望:产业发展机遇及关键点
例如,中国科学院上海微系统与信息技术研究所研究团队发明了基于蚕丝蛋白的生物存储器,
每平方英寸可以存储 64GB 数据信息(1 平方英寸 =6.4516×10-4m2),并且可重复擦写。蚕丝蛋白
和 DNA 相似,可耐受异常湿度、辐射和磁场等环境。蚕丝蛋白也可以用于存储生物体 DNA 等生物样品,
有望未来和 DNA 介质结合,用于数字存储。
尽管其存储密度依旧受限于光学写入设备的分辨率,但展现了学术界对于碳基介质用作信息
存储的认可。而代谢分子(糖类、氨基酸等)更小,也可以用作信息存储。布朗大学研究团队受
DNA 存储的启发,利用代谢分子液滴在金属板点阵列存储图片等信息。与简并碱基的思想类似,
他们利用对代谢组分分布的测量实现了更高维度空间中的信息编码。
图 73:DNA-Storage-on-Chip 的创意图
信息来源:NCSU
尽管碳基存储尤其 DNA 在密度上有很大优势,考虑到随机访问所需的稀溶液条件和分子扩散
速率, 1 L 的 DNA 存储池的信息容量被限制在 TB~ZB 量级。因此,值得关注“Storage-on-Chip”
的理念。存储硬件体系的设计需要适配实际考量;超大规模的数据存储离不开存储体系的创新。
总体来看,DNA 存储目前在原理验证、编码方法等基础工作上已经取得了大量的突破,但这
一部分工作仍然会是 DNA 应用于数据存储、信息交换载体的重中之重,就如同今天在通讯领域的
编解码所做的基础工作一样。不仅仅要继续解决如何用 ATCG 四种碱基、甚至更多人工碱基进行高
密度编码的数学方法,也要解决如何利用神经网络等方法进一步结合 DNA 载体特征进行数据压缩、
失真恢复等工作。除了上述基础工作之外,基于 DNA 存储,如何在这一载体基础上完成基于数学
方法和生化方法结合的高效信息检索、模糊搜索也是重要的方向。在实际应用中,低成本、高通
量的合成技术,存读一体机开发,以及重大历史资料的应用示范等也值得重点关注。
一方面,DNA 存储与 DNA 合成与测序技术、细胞生物学与分子生物学技术、BT 和 IT 技术等领
域正在不断交叉融合,DNA 因数据稳定性、传输、更迭、维护、保存等实用角度成为人工信息储
存的理想介质,成为存储介质中的“黑科技”。
版权所有 侵权必究
基因慧 www.geneclub.net.cn 121
DNA 存储蓝皮书
另一方面,随着生物技术的发展,特别是高通量的芯片合成和测序技术的不断完善,DNA 数
据存储领域也得到了越来越多的关注。与此同时,虽然大量研究表明 DNA 信息存储无论是在存储
能力、保存时间还是稳定可重复的读取上都展现出了巨大的发展前景,但目前 DNA 信息存储仍面
临巨大的挑战。
首先,读写成本和 DNA 数据存储的错误率是面临的主要问题,但随着 DNA 合成和测序技术的
改进,其成本和准确率有望得到提升,使其更好地适用于 DNA 存储领域,反之,DNA 存储的快速
发展也将带动合成和测序技术的二次飞跃。
其次,在信息编码和硬件上,DNA 存储将主要攻克随机读取、擦写、信息加密等关键问题。最后,
活细胞 DNA 存储技术搭配先进的细胞微处理器技术,可以在小尺度范围整合数据的存储与决策,
即数据“存”与“算”的一体化和边缘化,这个愿景的实现将依赖于 DNA 存储技术和细胞计算领
域的巨大突破。在未来的超大数据时代,活细胞 DNA 存储或能以医疗健康为中心进行广泛的应用
辐射,具备颠覆性技术的潜能。
再次,在云应用的角度上,公有云对象存储服务会按照特定的算法将数据切成多个数据块,
按照文件存储类型分别写到不同的存储介质中。DNA 存储技术的主要优势在于信息密度高,存储
成本有机会跟随超摩尔定律可快速降低,但主要劣势在于读写速度慢,综合来看未来可适用于海
量冷数据的长期归档和备份存储。DNA 存储技术距离工程应用仍然面临着数据持久性低(缺乏大
规模工程验证)、存储成本高(8 个数量级的差距)、读写速度太慢(2 个数量级的差距)和对现
代存储系统适配等多项挑战。
在 DNA 存储的市场化道路中,DNA 存储领域资深学者 Yaniv Erlich 曾提到,DNA 存储的市场
化可能不会面向个人用户,初期的使用者会是一些机构,主要用来存储那些冗长、重要的数据,
如金融数据和档案资料等。
未来 DNA 存储的重要研究方向如下:一是高稳定、易保存的 DNA 存储介质;二是自动化控制
的 DNA 信息存储软硬件一体化系统;三是高通量、低成本的信息映射与管理技术;四是分子电路
和数据调控;五是 DNA 存储的小型化、集成化;我们期望 DNA 存储领域能取得突破进入商业应用,
并逐步弥补甚至取代当前的数据存储方式。
122 基因慧 www.geneclub.net.cn 版权所有 侵权必究
使连接产生价值,
用数据看见未来
DNA 存储蓝皮书
合|作|联|系
www.geneclub.net.cn
info@genonet.cn
400-088-7466
广东省深圳市南山区
126 基因慧 www.geneclub.net.cn 版权所有 侵权必究
本蓝皮书非卖品,仅供学习参考
Download