MiCoDa：让16S微生物组数据真正可用的全球最大公开数据库

用户1075469

发布于 2026-06-08 15:02:31

880

最近小编不小心了解到了这么个数据库，给大家分享一下！

什么是MiCoDa？

MiCoDa是一个可搜索数据库，拥有超过35,000个来自水生、宿主相关和矿物环境的处理过16S rRNA基因扩增子序列样本，遍布全球。为提升交叉研究的可比性，MiCoDa中的所有样本均在16S rRNA基因的同一区域（碱基对515和806之间）测序。MiCoDa还承载着地球微生物组项目的样本，这些样本的处理方式相同。MiCoDa目前是目前最大的公共微生物组数据库。其目标是鼓励生命科学领域对现有序列数据的再利用。MiCoDa的起源是基于这样一个观察：生物多样性的再利用非常困难，尤其是微生物组序列数据的复杂性。除了大量数据和元数据收集外，微生物组数据的再利用还需要丰富的生物信息学知识和足够的序列处理计算能力。另一方面，微生物组数据会定期被归档。我们创建MiCoDa是为了利用现有数据，促进微生物组数据的再利用和综合，无论是专家还是非专业人士。为此，研究人员手动整理了包含的数据和元数据，对序列数据进行了预处理以最大化可比性，并创建了一个可搜索的数据门户。

序列可用性占比图

使用说明

MiCoDa 的输出文件设计得与 R 的 phyloseq 包无缝集成。MiCoDa输出分析的详细示例可在 https://github.com/drcarrot/MiCoDa 中提供。在样本选择后，用户下载一个压缩文件夹，包含三个文件：

• metadata.csv：对应所选样本的元数据，包括1）样本标识符，2）发表标识符，3）环境描述符，4）宿主描述符，5）技术描述符。这些元数据类别旨在将处理序列与其在公共序列库中的入品号（1）关联，将处理序列与最初公开的文章（2），便于按微生物组类型选择数据（3和4），并允许包含技术变异的后验来源（5）。参见元数据以了解所有领域的描述，以及本体论中关于微生物组层级分类的描述。对于选取的n个样本，metadata.csv的维度将为n行×31列元数据
• asv_table.csv：一种常规样本×物种矩阵。列名是每个样本的NCBI入场编号，用于将样本链接到的metadata.csv文件。行名是选定样本中检测到的每个ASV的唯一标识符，并将ASV链接到seqtaxo.csv文件。请注意，所有样本均已重新采样为每个样本5000个观测值。对于选取的n个样本，samplebyspecies.csv的维度将等同于选定样本×n列中检测到的ASV数量。
• taxonomy_table.csv：包含所有选定样本中检测到的所有ASV的唯一ASV标识符、分类学和90-bp序列标识符的文件。这些序列可以用来，例如对特定的ASV进行BLAST。seqtaxo.csv的尺寸将与选定样本中检测到的ASV数量×9行数相同。此外，用户还可以通过点击“下载所有处理元数据”按钮，下载一个详细记录所有 MiCoDa 样本每步骤处理后保存读取次数的 sequencingmeta.csv 文件。

AI时代，我们每个人的分析能力都得到极大提升，不管是能力还是效率，期待微生物领域也能获得更给力的成果。

参考

• Jurburg et al. (2024) Microbial Community Database (MiCoDa). v2 [Database]. German Centre for Integrative Biodiversity Research. https://doi.org/10.25829/8d64
• https://micoda.idiv.de/v2

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-06，如有侵权请联系 cloudcommunity@tencent.com 删除

设计