
如果你是开发者,你大概有过这种感觉:训练框架调来调去,优化好像到头了。如果你是技术管理者,算力成本年年涨,10%的训练效率提升就意味着真金白银的节省。如果你只是一个普通用户,你可能也注意到了——AI好像永远离不开云端,没网就罢工,隐私也不敢放心。
这些困境看起来各不相干,但它们指向同一个瓶颈:大模型的训练和部署,一直被人类手写代码的速度锁着。
现在有人用一种意想不到的方式,同时撬动了这三个问题——让AI自己来写训练框架。
英伟达的Megatron,大概是训练大模型最知名的框架之一。它由英伟达自家工程师打造,专门为自家GPU优化,是很多人眼中的"官方最优解"。
而AI写的那套新框架,跑在英伟达H100上,训练速度比Megatron还快10%。
不是快1%、2%的边际提升,是10%。而且不是实验原型,是已经产出生产级模型的成果。
更反直觉的是——这套框架里,没有一行人类代码。
它叫ForgeTrain,由面壁智能联合清华和OpenBMB团队发布,是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。"Forge"这个词选得精准:不是"写"代码,是"锻造"。
用ForgeTrain训出来的模型叫MiniCPM5-1B,只有10亿参数,却在AA-Index榜单上拿到17.9分,超越了参数量翻倍的Qwen3.5-2B(16.3分)——更小、更强。
而它INT4量化后权重只有0.5GB,能跑在手机上,断网可用。
把这条链路串起来看:AI写的框架,在国产芯片上跑,训出了超越更大模型的1B小模型,最后塞进手机里。这不是科幻,是2026年5月已经发生的事。
这篇文章要回答的核心问题是:这条链路是怎么跑通的?它意味着什么?
理解ForgeTrain,得先理解它为什么要这么做。
训练大模型的框架,长期以来是"人类写、AI跑"的模式。英伟达的Megatron、微软的DeepSpeed,都是顶尖工程师团队精心打磨的通用框架——兼容各种模型架构、各种硬件配置、各种训练策略。通用性是它们的核心价值,也是核心代价:为了兼容一切场景,必须做出大量妥协,在任何一个具体场景上都很难做到最优。
面壁团队看到了一个不同的可能性:如果AI能针对特定任务,"现场锻造"一套专用代码,就不需要为通用性牺牲效率。
"锻造"和"编写"的根本区别——编写是造一把瑞士军刀,什么都能干但什么都不极致;锻造是按需打一把手术刀,只干一件事但做到最好。
但让AI从零写一个训练框架,不是给它一个需求然后祈祷。面壁团队设计了一套精密的三阶段方法论,他们称之为"锻造工程"(Forge Engineering)。
锻造的第一步不是让AI动手,而是让AI知道什么叫"做对了"。
团队构建了一套自动化评测体系,把"跑对"和"跑快"两个模糊的人类判断,转化为机器可以精确执行的标准。跑对,意味着训练结果的每一个数值都必须可验证;跑快,意味着每一步的计算效率都有量化指标。
没有这套标准,AI就不知道自己做得好不好。有了标准,AI才有了优化的方向。
有了标准,第二步是让AI在严格的约束下,构建一个与Megatron"逐比特一致"的版本。
"逐比特一致"是个很苛刻的要求——不是说结果差不多就行,而是训练过程中每一步的输出,都必须与Megatron完全相同,精确到每一个bit。这是在证明:AI写的框架,在正确性上没有打折扣。
这一步的关键词是"约束"。AI不是自由发挥,而是在严格的正确性基线内工作。先证明"我能和你一样",再谈"我能比你更好"。
当正确性基线建立之后,第三步才是真正有意思的部分:解除一致性的限制,让AI自主迭代优化。
不再要求逐比特一致,而是只看最终标准——跑对、跑快。AI获得了自由度,开始尝试Megatron不会采用的优化路径。最终结果:在英伟达H100上,训练速度反超Megatron 10%。
值得注意的是,这个过程一旦启动,人类不再参与代码编写和中间修改,只在最后进行验收。人类的角色从"写代码的人"变成了"验收结果的人"。
这不是效率提升,这是角色互换。以前是人类写、AI跑;现在是AI写、人类验。
三阶段走完,一个更深层的范式转移浮出水面。
过去,训练框架是昂贵的工程资产,由顶尖团队花数月甚至数年打磨,一旦成型就尽量通用复用。而ForgeTrain展示了一种新可能:当AI写代码的成本足够低,你不需要维护一个通用大框架,而是可以针对不同模型、不同硬件、不同任务,现场锻造一套专用代码。用完即弃,下次再锻。
这不是遥远的未来想象。ForgeTrain已经在英伟达H100和华为昇腾上分别锻造了专用版本——H100上比英伟达Megatron快10%,昇腾上比昇腾原有框架也快10%——这恰好证明了"按需锻造"的可行性:同一套方法论,针对不同硬件锻造不同的最优解。
当然,需要诚实地说:ForgeTrain目前主要覆盖框架和算子层面,算法调参尚未完全交给AI。这是"AI制造AI"走出的第一步,不是最后一步。
但为什么这一步必须迈出去?面壁团队有一个判断:大模型进化速度的隐形天花板,是"碳基程序员手写代码的生理极限"。如果训练框架持续依赖人工迭代,智能的进化速度就会被锁死——不是模型不够聪明,而是人写得不够快。ForgeTrain的意义不只是"快了10%",而是打开了一条让AI自己优化自身训练过程的路径。
ForgeTrain锻造出来的第一个成果,是MiniCPM5-1B。
10亿参数。在如今动辄几百亿、上千亿参数的大模型时代,1B听起来像是"小字辈"。但它在AA-Index榜单上拿到了17.9分——这个分数超过了参数量翻倍的Qwen3.5-2B(16.3分),也超过了所有2B以下的开源基座模型。
参数量减半,效果更优。
这不是个例。面壁团队与清华联合提出的"密度定律"(Densing Law)——基于51个模型回测,R²达0.934–0.953,2025年11月登上Nature Machine Intelligence封面——指出:大模型的智能密度,即同等参数量下模型所展现的能力水平,约每3.5个月翻一番。意思是,同样参数规模下,模型的智能水平每隔3.5个月就会翻倍提升;或者说,达到同样的智能水平,所需的参数量每隔3.5个月就会减半。
MiniCPM5-1B恰好落在了这个规律的验证点上:Qwen3.5-2B大约3个月前发布,现在一个1B模型就追上来了。在AA-Index那张"智能指数vs参数量"的图上,MiniCPM5-1B蹲在左上角——体量最小,分数最高。
这个"密度定律"背后的驱动力,不是堆数据、不是堆算力,而是训练方法论的变化。当ForgeTrain让AI自己优化训练过程,它找到的优化路径是人类工程师未必会走的——就像AlphaGo下出了人类棋手不会下的棋。1B跑赢2B,本质上是训练效率的跃升。
值得一提的是,MiniCPM5-1B不只是综合分数好看。在代码能力(LCB-Pro 25Q2 Easy:22.68分)和奥赛级数学推理(AIME-2025/2026:40.42分)上,同尺寸模型里也是遥遥领先。而且同等智能水平下,它消耗的输出token极少——推理效率同样出色。
小,不再是弱的代名词。当训练方法足够好,小可以比大更强。
1B参数的模型已经够小了。但要让AI真正跑在每个人手边的设备上,光小还不够——还得轻。
MiniCPM5-1B通过量化压缩,给出了三档部署方案:
0.5GB是什么概念?一部手机随便一个App的缓存都不止这个数。
这意味着一个能做奥赛级数学推理、能写代码的AI,可以塞进任何一台智能手机,不需要云端、不需要网络。
面壁还做了另一件事:自研了CPU推理框架ArcLight。GPU是AI推理的标配,但不是每台设备都有GPU;能在CPU上跑,意味着任何一台普通电脑、任何一个浏览器窗口都能成为AI的入口。配合INT4量化版,在任意浏览器里就能断网直接推理。打开浏览器,AI就在那里,不依赖任何服务器。
这改变了什么?
过去,AI的体验绑死在云端。你问它一句话,数据要跑一趟服务器,网络不好就卡,隐私敏感就不敢用,没网就彻底罢工。端侧AI把这条链路缩短到了本地——请求在设备上处理,响应即时返回,数据不出设备,断网也能用。
面壁用MiniCPM5-1B做了一个示范应用:AI桌宠。一个常驻电脑桌面的小角色,随时响应你的对话,可以设置不同人格。它看起来是个小玩具,但背后的信号很明确——当1B参数的模型能跑在端侧,AI应用的形态就不再受限于"对话框"了。它可以是一个桌宠、一个助手、一个嵌入任何App的智能模块,不需要联网、不需要等服务器响应。
桌宠只是开始。0.5GB意味着端侧AI的部署门槛几乎归零——任何一台手机、任何一辆车机、任何一个浏览器,都可以是AI的载体。
现在把这条链路完整地看一遍:
AI写的训练框架ForgeTrain,跑在华为昇腾等国产芯片上,训出了MiniCPM5-1B这个1B参数的"小钢炮",最后0.5GB塞进手机,断网可用。
AI写框架 → 国产芯片训练 → 训出领先模型 → 跑在端侧。 每一个环节都已跑通,不是PPT,不是路线图,是已经发生的工程事实。
这条闭环的意义,需要放在更大的背景里看。
Andrej Karpathy,OpenAI的创始成员之一,曾提出"自动研究员"的设想——用AI加速AI的研究。后来他创办Eureka Labs,又加盟Anthropic预训练团队,目标正是用Claude加速预训练研究。Anthropic联合创始人兼政策主管Jack Clark在牛津大学给出了一个判断:到2028年底,AI跨过"递归自我改进"门槛的概率超过60%。DeepMind CEO Demis Hassabis则认为AGI将在2030年前后落地。
这些判断指向同一个方向:AI最终要能自己改进自己。但大多数人还在谈论"什么时候能实现"的时候,面壁已经走出了第一步——ForgeTrain证明了"AI写训练框架"这件事在工程上可行,而且结果比人类写的更好。
当然,诚实地说,ForgeTrain目前只覆盖了框架和算子层面,算法调参还没有交给AI。从"AI辅助研发"到"端到端模型生产",再到最终的"递归自改进",这条路还有距离。但第一步已经迈出去了,而且踩得很实。
如果说ForgeTrain解决的是"怎么训得更高效",那面壁同期发布的另一个成果解决的是"怎么压得更小"——BitCPM-CANN,中国首个完全基于华为昇腾平台训练并开源的三值(1.58-bit)大模型。两条路径汇合的终点,都是端侧。推理显存节省约6倍,模型能力保留率90%–97.2%。这意味着什么?如果三值化路径持续演进,未来60B参数的大模型,也有望跑在手机上。
回看整条链路:AI写的框架,在国产芯片上训练,训出了超越更大模型的小模型,塞进了手机。而这条链路本身,又可以被更好的AI、更优的框架、更高效的训练方法不断迭代——这就是闭环的力量。
但ForgeTrain真正值得带走的,不只是这条链路本身,而是一个判断标准。
以后你看到任何一条"AI自改进"的新闻,都可以用这个标准独立判断它的分量:它是否打开了一条AI自己优化自己的路径?如果打开了,它就是起点,后面会越跑越快;如果没有,它只是一个终点,到此为止。
ForgeTrain打开了这条路径。所以它不是一个终点,而是一个起点。
MiniCPM5-1B和ForgeTrain均已开源:https://github.com/OpenBMB/MiniCPM
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。