《SCIENCE ADVANCES》:From spacecraft ranging to massive DNA data storage: Composite ranging codes as indices and error correction references
编辑推荐:
为解决DNA数据存储中索引易损、缺失及indel(插入/缺失)纠错计算复杂等难题,研究人员提出基于长复合测距码(LCRC)的伴随索引与渐进恢复框架。该方案利用LCRC短片段作为索引,通过SCC(短分量码)相关与LCRC比对实现快速定位与纠错,支持从MB至PB级数据规模的低覆盖、实时解码,为海量DNA存档提供了通用且高效的解决方案。
当DNA成为“活硬盘”:海量数据存储的寻址与纠错革命
在信息爆炸的时代,我们产生的数据量正以指数级增长,传统的硬盘和磁带存储不仅物理空间占用大,寿命也有限。科学家们将目光投向了自然界最古老、最稳定的信息载体——DNA。理论上,1公斤DNA就能存储全球目前的数据量,且能保存数千年。然而,将数字世界的“0/1”完美写入生物分子的“A/T/G/C”,并能在需要时快速、准确地读回来,面临着两大“拦路虎”。
第一只虎是“乱序与丢失”。DNA存储通常将数据分散在数百万甚至数十亿条无序的DNA链中,就像把一本书撕成无数碎片扔进一个大池子。传统的“索引+数据”模式依赖短索引来标记每条链的身份,但在实际的合成与测序过程中,DNA极易发生降解和错误,短索引一旦损坏或丢失,整条数据链就成了“无名尸骸”,无法复原。
第二只虎是“插入与缺失”。与简单的比特翻转不同,DNA测序(尤其是纳米孔测序)常出现碱基的插入(Insertion)和缺失(Deletion),统称为indel。这类错误会打乱阅读框架,使得传统的聚类和比对算法计算量极大,难以实现快速、低覆盖率的恢复。
为了解决这些挑战,一项发表于《Science Advances》的研究《From spacecraft ranging to massive DNA data storage: Composite ranging codes as indices and error correction references》提出了一种颠覆性的思路:借鉴航天测距技术,用长复合测距码为DNA数据打造一把“万能钥匙”。
技术方法概要
本研究构建了一套完整的LCRC编解码系统。编码端,利用多个互质长度的短分量码(SCC)通过中国剩余定理(CRT)构造极长周期的LCRC,将其分段作为伴随索引与用户数据耦合编码为DNA链。解码端,建立渐进式纠错流水线:先通过SCC相关滤波快速定位低错误读长,再利用LCRC作为隐藏参考进行比对以纠正严重indel,最后结合多数投票共识与LDPC/乘积码实现最终纠错。研究通过体外合成寡核苷酸池(规模从万级至百万级链)结合Illumina与纳米孔测序进行了验证。
LCRC索引海量DNA存储
重构索引逻辑:从“门牌号”到“GPS坐标”
传统的DNA存储索引就像一个个独立的门牌号,彼此没有关联。本研究借鉴航天测距中用于精确测量距离的复合测距码概念,设计了一种长复合测距码(LCRC)。LCRC由多个周期互质且长度相近的短分量码(SCC)通过逻辑组合而成,其总长度是各SCC长度的乘积,因此可以极其漫长。研究团队将这条漫长的LCRC切割成片段,作为“伴随索引”与数据一起写入每条DNA链。
这种设计的精妙之处在于可扩展性与唯一性。通过选择3个或5个SCC,LCRC的长度可以轻松覆盖从MB到PB(101?字节)级别的数据规模。更重要的是,由于LCRC的数学特性,任意一段足够长的片段在整条码中都是唯一可识别的。这就像拥有了一个连续的GPS坐标系统,即使你只拿到了一小段坐标(索引),也能通过计算(相关检测)反推出它在整个地图上的绝对位置。
抗错与生化友好性
通过模拟与理论分析,研究证实LCRC索引方案能有效规避DNA合成中忌讳的长同聚物(Homopolymer)和极端GC含量问题,无需额外的复杂约束编码,保证了DNA链的化学稳定性。
基于伴随LCRC的渐进纠错
三步流水线:滤波、抛光、共识
面对混杂着噪声的测序数据,研究团队设计了一套高效的渐进式恢复流程:
- 1.
SCC相关滤波(快速通道):对于错误较少的读长,直接将其中的LCRC片段与已知的SCC进行滑动相关。由于SCC周期短,计算量远小于全码比对。通过中国剩余定理(CRT)解算出读长的起始位置,实现“秒级”定位。
- 2.
LCRC比对抛光(纠错通道):对于相关检测失败(可能含有严重indel)的读长,启动局部序列比对算法,以已知的LCRC为“隐藏参考”进行比对。这不仅确定了索引,还能直接修正读长中的插入和缺失错误。
- 3.
共识与纠错码(ECC):根据索引将读长分组,进行位点级别的多数投票(Consensus),最后利用LDPC码或乘积码消除残余错误。
这种分层策略实现了计算效率与纠错深度的平衡,尤其擅长处理纳米孔测序产生的高indel率数据。
相关读出实现低错误率快速恢复
低覆盖度下的完美恢复
通过体外实验合成不同规模的DNA池(从1.9万条到96万条链),研究验证了该框架的鲁棒性。在Illumina测序(错误率~0.18–1.34%)环境下,仅需4×至6.6×的测序覆盖度即可实现数据的无错误恢复。SCC相关检测成功识别了绝大部分读长(最高达96%),且正确识别率接近100%。
实时读长解码匹配纳米孔测序
迈向“即测即得”的DNA存储
为了匹配纳米孔测序实时、长读长的特点,研究团队实现了读长级实时解码。在纳米孔测序错误率高达~4.9–8.6%的苛刻条件下,仅需3.66×至5.69×的低覆盖度,即可在测序同时开始解码。12.87 MB的图像数据集在测序开始后约20分钟即被成功恢复,且计算复杂度低,展现了该框架在未来海量冷数据归档应用中的巨大潜力。
结论与展望
这项研究成功地将航天工程中的成熟技术跨界应用于DNA信息存储领域,解决了长期困扰该领域的索引脆弱性与高计算复杂度难题。LCRC框架的核心优势在于其通用性:它不依赖于特定的DNA合成技术(适用于寡核苷酸池和长片段),也不依赖于特定的测序平台(适用于NGS和纳米孔)。
更重要的是,它实现了“索引即参考”的理念,将索引从额外的负担转变为纠错的利器。随着DNA合成成本的不断下降,这项技术为构建EB级甚至ZB级的海量、长寿命、低维护成本的数据“生物硬盘”奠定了坚实的理论与技术基础,或许在不久的将来,我们真的能用一小瓶DNA保存下人类所有的文明记忆。