科学网—新工具可搜索全球10%已知基因序列

作者：李木子来源：医学科学报发布时间：2024-6-28

选择字号：小中大

新工具可搜索全球10%已知基因序列

本报讯一种功能类似于谷歌引擎的工具已经证明了它的前景——可以廉价且很容易地搜索全球所有的生物序列数据。开发该工具的瑞士团队表示，在一项原理验证研究中，他们成功索引了世界上已知10%的DNA、RNA和蛋白质序列，并且采用同样的方法也可以完成剩余的部分。

日前，该进展在预印本平台bioRxiv上公布。这款名为MetaGraph的计算工具，可以将公开的序列数据组织并压缩为可搜索的格式，就像互联网搜索引擎对网页及其内容所做的那样。由此产生的索引可供下载，也可通过一个门户网站获得，即用户可以扫描包含数万亿个碱基对和数十亿个氨基酸的序列。

没有参与该工作的美国马里兰大学计算生物学家Rob Patro说，这项研究“是一项巨大成就，是完成对所有公开的测序数据进行索引这一重大挑战的一个里程碑”。从鉴定新病毒到揭示与疾病相关的RNA序列，这样的资源可以助力无数领域的研究。虽然MetaGraph并不是唯一一个旨在实现这一目标的项目，但该团队已经创建了迄今最大的索引，并且使用成本相对较低。

Patro指出，目前，DNA、RNA和蛋白质序列数据的存储库呈指数级增长。序列读取档案（SRA）是一个由美国国立卫生研究院国家生物技术信息中心（NCBI）及其合作者运营的基因数据库，包含了来自人类和其他动物、植物和细菌等生物体的超过5万万亿个碱基对（50拍碱基）。

目前的生物信息学工具无法同时扫描这么多数据，尤其是那些尚未组装成基因组的序列，研究人员必须先缩小序列集合的范围，然后才能搜索。一些研究小组希望通过将较大数据库中的序列压缩成更有组织的数据结构或索引来解决这个问题，以便在可下载文件或在线门户网站中轻松搜索。

2020年，瑞士苏黎世联邦理工学院生物信息学家André Kahles和计算机科学家Gunnar Ratsch及其同事展示了MetaGraph的早期版本。该团队使用名为德布鲁因图的数学结构表示了序列之间的重叠，从SRA中索引了100多万条记录，总计约3拍碱基。

现在，该团队利用MetaGraph的改进版本索引了SRA和其他数据库的5拍碱基，包括来自微生物、真菌、植物、人类和人类肠道微生物组的序列。新发布的工具可以将几十兆兆碱基的数据压缩到大约10千兆字节——小到足以在一台个人电脑上运行。构建初始索引是很困难且昂贵的，建立整个SRA需要花费数十万美元，但现在用户可以更廉价地查询数据集。

无独有偶，其他研究小组也取得了进展。去年，法国巴斯德研究所从欧洲研究委员会获得了200万欧元，启动了IndexThePlanet项目，对SRA中的所有数据进行编目。Patro认为，由于受索引规模的限制，MetaGraph在一些特别大的任务上可能比其他工具慢，比如同时从一个样本中查找数百万个序列。他补充说，目前还不清楚如何最好地用新的序列数据更新索引。还有一个挑战是为项目提供资金，并承担随之而来的所有计算成本。事实上，该工具最终能否被广泛采用，将部分取决于“如何解决社会和行政方面的问题，即如何使用如此大量的资源”。

Kahles和Ratsch对此表示赞同，他们希望这项工作能激励其他研究团体，以及NCBI等更大组织的参与，并帮助索引剩余90%的序列数据，供研究人员使用。（李木子）

相关论文信息：

https://doi.org/10.1101/2020.10.01.322164

《医学科学报》 (2024-06-28 第9版国际)

编辑部推荐博文
国自然基金，这项优化让你的申请书更“吸睛”！科学网2026年1月十佳博文榜单公布！如何撰写合格的审稿报告？为您解答审稿人相关问题 \| MDPI 答疑录技术发明与市场交换，双轮驱动创造价值生物存活的哲学我与上海的半生相守更多>>