从航天测距码到PB级DNA存储：长复合测距码（LCRC）的伴随索引与渐进纠错框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《SCIENCE ADVANCES》：From spacecraft ranging to massive DNA data storage: Composite ranging codes as indices and error correction references

【字体：大中小】 时间：2026年04月20日 来源：SCIENCE ADVANCES 12.5

编辑推荐：

　　为解决DNA数据存储中索引易损、缺失及indel（插入/缺失）纠错计算复杂等难题，研究人员提出基于长复合测距码（LCRC）的伴随索引与渐进恢复框架。该方案利用LCRC短片段作为索引，通过SCC（短分量码）相关与LCRC比对实现快速定位与纠错，支持从MB至PB级数据规模的低覆盖、实时解码，为海量DNA存档提供了通用且高效的解决方案。

当DNA成为“活硬盘”：海量数据存储的寻址与纠错革命

在信息爆炸的时代，我们产生的数据量正以指数级增长，传统的硬盘和磁带存储不仅物理空间占用大，寿命也有限。科学家们将目光投向了自然界最古老、最稳定的信息载体——DNA。理论上，1公斤DNA就能存储全球目前的数据量，且能保存数千年。然而，将数字世界的“0/1”完美写入生物分子的“A/T/G/C”，并能在需要时快速、准确地读回来，面临着两大“拦路虎”。

第一只虎是“乱序与丢失”。DNA存储通常将数据分散在数百万甚至数十亿条无序的DNA链中，就像把一本书撕成无数碎片扔进一个大池子。传统的“索引+数据”模式依赖短索引来标记每条链的身份，但在实际的合成与测序过程中，DNA极易发生降解和错误，短索引一旦损坏或丢失，整条数据链就成了“无名尸骸”，无法复原。

第二只虎是“插入与缺失”。与简单的比特翻转不同，DNA测序（尤其是纳米孔测序）常出现碱基的插入（Insertion）和缺失（Deletion），统称为indel。这类错误会打乱阅读框架，使得传统的聚类和比对算法计算量极大，难以实现快速、低覆盖率的恢复。

为了解决这些挑战，一项发表于《Science Advances》的研究《From spacecraft ranging to massive DNA data storage: Composite ranging codes as indices and error correction references》提出了一种颠覆性的思路：借鉴航天测距技术，用长复合测距码为DNA数据打造一把“万能钥匙”。

技术方法概要

本研究构建了一套完整的LCRC编解码系统。编码端，利用多个互质长度的短分量码（SCC）通过中国剩余定理（CRT）构造极长周期的LCRC，将其分段作为伴随索引与用户数据耦合编码为DNA链。解码端，建立渐进式纠错流水线：先通过SCC相关滤波快速定位低错误读长，再利用LCRC作为隐藏参考进行比对以纠正严重indel，最后结合多数投票共识与LDPC/乘积码实现最终纠错。研究通过体外合成寡核苷酸池（规模从万级至百万级链）结合Illumina与纳米孔测序进行了验证。

LCRC索引海量DNA存储

重构索引逻辑：从“门牌号”到“GPS坐标”

传统的DNA存储索引就像一个个独立的门牌号，彼此没有关联。本研究借鉴航天测距中用于精确测量距离的复合测距码概念，设计了一种长复合测距码（LCRC）。LCRC由多个周期互质且长度相近的短分量码（SCC）通过逻辑组合而成，其总长度是各SCC长度的乘积，因此可以极其漫长。研究团队将这条漫长的LCRC切割成片段，作为“伴随索引”与数据一起写入每条DNA链。

这种设计的精妙之处在于可扩展性与唯一性。通过选择3个或5个SCC，LCRC的长度可以轻松覆盖从MB到PB（101?字节）级别的数据规模。更重要的是，由于LCRC的数学特性，任意一段足够长的片段在整条码中都是唯一可识别的。这就像拥有了一个连续的GPS坐标系统，即使你只拿到了一小段坐标（索引），也能通过计算（相关检测）反推出它在整个地图上的绝对位置。

抗错与生化友好性

通过模拟与理论分析，研究证实LCRC索引方案能有效规避DNA合成中忌讳的长同聚物（Homopolymer）和极端GC含量问题，无需额外的复杂约束编码，保证了DNA链的化学稳定性。

基于伴随LCRC的渐进纠错

三步流水线：滤波、抛光、共识

面对混杂着噪声的测序数据，研究团队设计了一套高效的渐进式恢复流程：

1.
SCC相关滤波（快速通道）：对于错误较少的读长，直接将其中的LCRC片段与已知的SCC进行滑动相关。由于SCC周期短，计算量远小于全码比对。通过中国剩余定理（CRT）解算出读长的起始位置，实现“秒级”定位。
2.
LCRC比对抛光（纠错通道）：对于相关检测失败（可能含有严重indel）的读长，启动局部序列比对算法，以已知的LCRC为“隐藏参考”进行比对。这不仅确定了索引，还能直接修正读长中的插入和缺失错误。
3.
共识与纠错码（ECC）：根据索引将读长分组，进行位点级别的多数投票（Consensus），最后利用LDPC码或乘积码消除残余错误。

这种分层策略实现了计算效率与纠错深度的平衡，尤其擅长处理纳米孔测序产生的高indel率数据。

实时读长解码匹配纳米孔测序

迈向“即测即得”的DNA存储

为了匹配纳米孔测序实时、长读长的特点，研究团队实现了读长级实时解码。在纳米孔测序错误率高达~4.9–8.6%的苛刻条件下，仅需3.66×至5.69×的低覆盖度，即可在测序同时开始解码。12.87 MB的图像数据集在测序开始后约20分钟即被成功恢复，且计算复杂度低，展现了该框架在未来海量冷数据归档应用中的巨大潜力。

结论与展望

这项研究成功地将航天工程中的成熟技术跨界应用于DNA信息存储领域，解决了长期困扰该领域的索引脆弱性与高计算复杂度难题。LCRC框架的核心优势在于其通用性：它不依赖于特定的DNA合成技术（适用于寡核苷酸池和长片段），也不依赖于特定的测序平台（适用于NGS和纳米孔）。

更重要的是，它实现了“索引即参考”的理念，将索引从额外的负担转变为纠错的利器。随着DNA合成成本的不断下降，这项技术为构建EB级甚至ZB级的海量、长寿命、低维护成本的数据“生物硬盘”奠定了坚实的理论与技术基础，或许在不久的将来，我们真的能用一小瓶DNA保存下人类所有的文明记忆。

联系信箱：

粤ICP备09063491号