
DRUGONE
近年来,受大语言模型和视觉基础模型成功经验的推动,单细胞基础模型(Single-Cell Foundation Models, scFMs)迅速发展,其预训练数据规模已从最初约100万个细胞扩展到超过1亿个细胞。然而,一个关键问题始终缺乏系统研究:预训练数据规模和数据多样性的持续增长,是否能够持续提升模型性能?
研究人员基于包含2220万个单细胞转录组的scTab数据集,系统构建了400个预训练模型,并开展6400项下游评测实验,涵盖零样本学习和微调学习两大应用场景。研究比较了PCA、scVI、SSL、Geneformer和SCimilarity五类代表性模型,并从细胞类型分类、批次整合以及扰动响应预测等任务评估模型表现。结果显示,大多数单细胞基础模型在仅使用全部训练数据极小比例时便已达到性能饱和,继续增加预训练数据规模或简单提升数据多样性几乎无法带来额外收益。与自然语言模型不同,当前单细胞基础模型并未表现出明确的数据扩展定律。研究表明,未来模型开发应更加关注模型结构设计、训练目标和数据质量,而非单纯扩大数据规模。

单细胞测序技术的发展使研究人员能够以前所未有的分辨率观察细胞异质性。从细胞类型鉴定到发育轨迹分析,再到疾病机制研究,大量机器学习方法被应用于单细胞数据分析。
与此同时,基础模型在自然语言处理和计算机视觉领域取得革命性成功。基于Transformer架构的大规模预训练模型展现出卓越的迁移能力和零样本学习能力。这种成功促使研究人员尝试将类似理念引入单细胞生物学领域,并相继开发出scBERT、Geneformer、scGPT和scFoundation等单细胞基础模型。
这些模型通常利用数千万个单细胞转录组进行预训练,并被应用于细胞类型注释、批次效应校正、基因调控网络推断以及扰动响应预测等任务。然而,与自然语言模型不同,单细胞基础模型的训练成本极高,同时模型性能提升是否真正受益于持续扩大的训练数据规模仍不清楚。
此前,大语言模型领域已经发现“更多数据并不总是更好”。在固定计算预算下,高质量子集训练有时甚至优于使用全部数据。因此,研究人员提出一个核心问题:单细胞基础模型是否也存在类似现象?预训练数据规模和多样性究竟在多大程度上影响模型性能?
方法
研究人员构建了一套大规模系统评测框架。首先,从包含2220万个细胞的scTab数据库中构建预训练数据集,并设计三种下采样策略:随机抽样、细胞类型均衡抽样以及几何草图抽样。前者保持原始数据分布,而后两者旨在提高数据多样性。每种策略分别构建1%、10%、25%、50%和75%规模的数据集。
随后,研究人员训练五种不同复杂度的模型,包括PCA、scVI、自监督掩码自编码器SSL、Transformer模型Geneformer以及度量学习模型SCimilarity,共得到400个预训练模型。
这些模型随后在细胞类型分类、批次整合和扰动响应预测等多个任务上进行测试,总计完成6400项实验,以系统评估数据规模和数据多样性对模型性能的影响。
结果
构建覆盖2220万个细胞的系统评测框架
研究首先建立了目前单细胞基础模型领域规模最大的预训练评测体系之一。
不同于以往仅比较少数模型或单一任务,本研究同时覆盖五种模型架构、三种数据构建策略、五个训练规模以及多个独立测试数据集。评测既包括零样本场景,也包括针对特定任务进行微调后的场景。
通过这种设计,研究人员能够全面分析数据规模、数据多样性和模型结构之间的关系,并避免单一任务造成的偏差。

图1: 研究整体设计框架。
增加预训练数据规模并未持续提升细胞类型分类性能
研究人员首先评估最常见的细胞类型分类任务。结果显示,无论是零样本分类还是经过微调后的分类,大多数模型的性能都在极小比例训练数据下迅速达到平台期。
对于PCA、Geneformer和SCimilarity模型,随着预训练数据规模增加,分类性能几乎没有变化。对于scVI和SSL模型,性能在最初阶段略有提升,但当数据规模达到全部训练集的1%至10%后便趋于稳定。
更令人意外的是,在某些情况下,简单模型和传统基线方法甚至超过了复杂Transformer模型。特别是在微调任务中,Geneformer和SSL的表现并未明显优于PCA和逻辑回归模型。
这表明单细胞基础模型在细胞分类任务上很早就进入性能饱和状态。

图2: 不同预训练数据规模下的细胞类型分类性能。
不同数据集均出现相同的学习饱和现象
为了验证这一现象是否具有普遍性,研究人员进一步分析了多个独立数据集。结果发现,无论是造血系统、肠道芯片模型、胎盘感染还是牙周炎数据集,大多数模型都在极少量预训练数据下达到95%以上的最终性能。
研究人员据此提出“学习饱和点”概念,即达到最大性能95%时所需的最小训练数据比例。分析发现,对于大多数模型,学习饱和点仅为全部训练数据的1%。即使表现最慢的SSL模型,通常也只需10%至25%的训练数据即可达到性能上限。
换句话说,仅约20万细胞就足以达到当前模型绝大部分分类能力,而继续扩展到数千万甚至上亿细胞并不会带来明显收益。

图3: 不同数据集中的学习饱和点分析。
提高数据多样性并不能显著改善模型性能
研究人员进一步探讨数据多样性是否比数据规模更重要。为此,他们采用细胞类型重加权和几何草图抽样两种策略,显著提高训练集中的生物学多样性和转录组多样性。
虽然这些方法确实提高了Shannon指数、Gini-Simpson指数以及Vendi Score等多样性指标,但在分类任务中几乎没有观察到性能提升。无论是随机抽样还是增强多样性的训练集,大多数模型最终性能差异极小。
这一结果说明,简单增加样本异质性并不足以突破当前模型性能瓶颈。
批次整合任务同样表现出快速饱和
随后研究人员评估批次整合能力。该任务要求模型能够将来自不同实验批次、不同平台甚至不同研究的数据映射到统一表示空间中,是单细胞分析的重要基础任务。结果显示,批次整合任务与细胞分类任务呈现出高度一致的规律。
对于PCA、scVI和SCimilarity模型,仅使用1%至10%的训练数据即可达到最佳性能;Geneformer和SSL虽然需要更多数据,但通常也不会超过50%。更重要的是,增加训练数据规模同样无法持续提高模型性能。
这一现象再次表明当前单细胞基础模型并不存在类似大语言模型的数据扩展规律。

图4: 批次整合任务中的性能饱和分析。
扰动响应预测任务几乎在最小数据规模下达到极限
研究进一步评估药物扰动响应预测任务。研究人员利用Tahoe-100M数据集中多个癌细胞系和药物处理实验进行测试,预测细胞在药物作用后的转录组变化。结果发现,所有模型的性能饱和点几乎都出现在训练数据的1%阶段。
更值得关注的是,在大多数药物条件下,一个简单的“无变化预测”基线模型竟然优于所有深度学习模型。这说明当前单细胞基础模型在复杂因果扰动建模方面仍存在明显局限。

图5: 扰动响应预测任务中的性能饱和现象。
引入250万扰动细胞数据仍未打破性能瓶颈
研究人员进一步尝试向预训练数据中加入超过250万个Perturb-seq扰动细胞。理论上,这些数据包含丰富的基因调控信息,可能增强模型学习能力。
然而实验结果显示,无论加入10%还是50%的扰动细胞,模型性能仍然在极小规模训练数据下达到饱和。细胞分类和批次整合任务均未观察到显著改善。
这说明仅靠增加特殊类型数据并不能自动提升基础模型能力,预训练目标与下游任务之间的匹配程度可能更加关键。
更大的模型性能更高,但依然无法从更多数据中获益
最后,研究人员研究模型参数规模的影响。结果显示,增大scVI和Geneformer模型参数后,整体性能确实有所提高。
然而,即便是更大的模型,也仍然在很小比例的训练数据下达到性能饱和。换言之,更大的模型能够学得更好,却不能从更多数据中持续获益。
这种现象与大语言模型形成鲜明对比。后者往往同时受益于模型规模和数据规模扩展,而单细胞基础模型目前只体现出有限的参数扩展收益。

图6: 模型参数规模扩展实验。
讨论
本研究首次系统评估了单细胞基础模型中的数据规模扩展规律问题。结果表明,当前主流单细胞基础模型在仅使用全部训练数据极小比例时便达到性能上限,继续增加训练数据规模并不会产生类似大语言模型中的持续收益。
研究人员认为,这一现象说明单细胞领域可能尚未形成真正意义上的“神经扩展定律”。未来模型开发不应盲目追求从千万细胞扩展到数亿甚至数十亿细胞,而应更加重视数据质量、数据内容以及任务相关性。
研究还指出,当前广泛采用的“细胞即基因句子(cell as a sentence of genes)”建模范式可能存在局限。许多简单模型和传统降维方法在多个任务上依然优于Transformer模型,这提示单细胞数据可能并不完全适合直接套用自然语言处理中的建模思想。
此外,SCimilarity之所以表现最佳,很大程度上源于其预训练目标与细胞类型表示学习高度一致。这进一步说明,设计与下游任务匹配的训练目标可能比单纯扩大数据规模更加重要。
总体而言,该研究对当前“单细胞大模型竞赛”提出了重要反思:未来的发展方向或许不在于训练更大的模型、收集更多的数据,而在于构建更合理的生物学表示、更有效的训练目标以及更高质量的数据资源。这一结论对于下一代单细胞基础模型的发展具有重要指导意义。
整理 | DrugOne团队
参考资料
DenAdel, A., Hughes, M., Thoutam, A. et al. Evaluating the role of pretraining dataset size and diversity on single-cell foundation model performance. Nat Methods (2026).
https://doi.org/10.1038/s41592-026-03120-y