当AI开始自己造AI——从ForgeTrain到MiniCPM5-1B，一条跑通了的链路

原创

IT蜗壳-Tango

发布于 2026-05-27 20:38:17

5021

一、一个反直觉的事实

如果你是开发者，你大概有过这种感觉：训练框架调来调去，优化好像到头了。如果你是技术管理者，算力成本年年涨，10%的训练效率提升就意味着真金白银的节省。如果你只是一个普通用户，你可能也注意到了——AI好像永远离不开云端，没网就罢工，隐私也不敢放心。

这些困境看起来各不相干，但它们指向同一个瓶颈：大模型的训练和部署，一直被人类手写代码的速度锁着。

现在有人用一种意想不到的方式，同时撬动了这三个问题——让AI自己来写训练框架。

英伟达的Megatron，大概是训练大模型最知名的框架之一。它由英伟达自家工程师打造，专门为自家GPU优化，是很多人眼中的"官方最优解"。

而AI写的那套新框架，跑在英伟达H100上，训练速度比Megatron还快10%。

不是快1%、2%的边际提升，是10%。而且不是实验原型，是已经产出生产级模型的成果。

更反直觉的是——这套框架里，没有一行人类代码。

它叫ForgeTrain，由面壁智能联合清华和OpenBMB团队发布，是全球首个完全由AI编写、零人类代码介入的生产级大模型训练框架。"Forge"这个词选得精准：不是"写"代码，是"锻造"。

用ForgeTrain训出来的模型叫MiniCPM5-1B，只有10亿参数，却在AA-Index榜单上拿到17.9分，超越了参数量翻倍的Qwen3.5-2B（16.3分）——更小、更强。

而它INT4量化后权重只有0.5GB，能跑在手机上，断网可用。

把这条链路串起来看：AI写的框架，在国产芯片上跑，训出了超越更大模型的1B小模型，最后塞进手机里。这不是科幻，是2026年5月已经发生的事。

这篇文章要回答的核心问题是：这条链路是怎么跑通的？它意味着什么？

二、锻造，而非编写

理解ForgeTrain，得先理解它为什么要这么做。

训练大模型的框架，长期以来是"人类写、AI跑"的模式。英伟达的Megatron、微软的DeepSpeed，都是顶尖工程师团队精心打磨的通用框架——兼容各种模型架构、各种硬件配置、各种训练策略。通用性是它们的核心价值，也是核心代价：为了兼容一切场景，必须做出大量妥协，在任何一个具体场景上都很难做到最优。

面壁团队看到了一个不同的可能性：如果AI能针对特定任务，"现场锻造"一套专用代码，就不需要为通用性牺牲效率。

"锻造"和"编写"的根本区别——编写是造一把瑞士军刀，什么都能干但什么都不极致；锻造是按需打一把手术刀，只干一件事但做到最好。

但让AI从零写一个训练框架，不是给它一个需求然后祈祷。面壁团队设计了一套精密的三阶段方法论，他们称之为"锻造工程"（Forge Engineering）。

第一步：立标准（Harnessing）

锻造的第一步不是让AI动手，而是让AI知道什么叫"做对了"。

团队构建了一套自动化评测体系，把"跑对"和"跑快"两个模糊的人类判断，转化为机器可以精确执行的标准。跑对，意味着训练结果的每一个数值都必须可验证；跑快，意味着每一步的计算效率都有量化指标。

没有这套标准，AI就不知道自己做得好不好。有了标准，AI才有了优化的方向。

第二步：咬对齐（Bit-for-Bit Replication）

有了标准，第二步是让AI在严格的约束下，构建一个与Megatron"逐比特一致"的版本。

"逐比特一致"是个很苛刻的要求——不是说结果差不多就行，而是训练过程中每一步的输出，都必须与Megatron完全相同，精确到每一个bit。这是在证明：AI写的框架，在正确性上没有打折扣。

这一步的关键词是"约束"。AI不是自由发挥，而是在严格的正确性基线内工作。先证明"我能和你一样"，再谈"我能比你更好"。

第三步：解约束反超（Surpassing）

当正确性基线建立之后，第三步才是真正有意思的部分：解除一致性的限制，让AI自主迭代优化。

不再要求逐比特一致，而是只看最终标准——跑对、跑快。AI获得了自由度，开始尝试Megatron不会采用的优化路径。最终结果：在英伟达H100上，训练速度反超Megatron 10%。

值得注意的是，这个过程一旦启动，人类不再参与代码编写和中间修改，只在最后进行验收。人类的角色从"写代码的人"变成了"验收结果的人"。

这不是效率提升，这是角色互换。以前是人类写、AI跑；现在是AI写、人类验。

代码从"资产"变成"可按需锻造的深度定制品"

三阶段走完，一个更深层的范式转移浮出水面。

过去，训练框架是昂贵的工程资产，由顶尖团队花数月甚至数年打磨，一旦成型就尽量通用复用。而ForgeTrain展示了一种新可能：当AI写代码的成本足够低，你不需要维护一个通用大框架，而是可以针对不同模型、不同硬件、不同任务，现场锻造一套专用代码。用完即弃，下次再锻。

这不是遥远的未来想象。ForgeTrain已经在英伟达H100和华为昇腾上分别锻造了专用版本——H100上比英伟达Megatron快10%，昇腾上比昇腾原有框架也快10%——这恰好证明了"按需锻造"的可行性：同一套方法论，针对不同硬件锻造不同的最优解。

当然，需要诚实地说：ForgeTrain目前主要覆盖框架和算子层面，算法调参尚未完全交给AI。这是"AI制造AI"走出的第一步，不是最后一步。

但为什么这一步必须迈出去？面壁团队有一个判断：大模型进化速度的隐形天花板，是"碳基程序员手写代码的生理极限"。如果训练框架持续依赖人工迭代，智能的进化速度就会被锁死——不是模型不够聪明，而是人写得不够快。ForgeTrain的意义不只是"快了10%"，而是打开了一条让AI自己优化自身训练过程的路径。

三、1B凭什么跑赢2B

ForgeTrain锻造出来的第一个成果，是MiniCPM5-1B。

10亿参数。在如今动辄几百亿、上千亿参数的大模型时代，1B听起来像是"小字辈"。但它在AA-Index榜单上拿到了17.9分——这个分数超过了参数量翻倍的Qwen3.5-2B（16.3分），也超过了所有2B以下的开源基座模型。

参数量减半，效果更优。

这不是个例。面壁团队与清华联合提出的"密度定律"（Densing Law）——基于51个模型回测，R²达0.934–0.953，2025年11月登上Nature Machine Intelligence封面——指出：大模型的智能密度，即同等参数量下模型所展现的能力水平，约每3.5个月翻一番。意思是，同样参数规模下，模型的智能水平每隔3.5个月就会翻倍提升；或者说，达到同样的智能水平，所需的参数量每隔3.5个月就会减半。

MiniCPM5-1B恰好落在了这个规律的验证点上：Qwen3.5-2B大约3个月前发布，现在一个1B模型就追上来了。在AA-Index那张"智能指数vs参数量"的图上，MiniCPM5-1B蹲在左上角——体量最小，分数最高。

这个"密度定律"背后的驱动力，不是堆数据、不是堆算力，而是训练方法论的变化。当ForgeTrain让AI自己优化训练过程，它找到的优化路径是人类工程师未必会走的——就像AlphaGo下出了人类棋手不会下的棋。1B跑赢2B，本质上是训练效率的跃升。

值得一提的是，MiniCPM5-1B不只是综合分数好看。在代码能力（LCB-Pro 25Q2 Easy：22.68分）和奥赛级数学推理（AIME-2025/2026：40.42分）上，同尺寸模型里也是遥遥领先。而且同等智能水平下，它消耗的输出token极少——推理效率同样出色。

小，不再是弱的代名词。当训练方法足够好，小可以比大更强。

四、0.5GB的世界

1B参数的模型已经够小了。但要让AI真正跑在每个人手边的设备上，光小还不够——还得轻。

MiniCPM5-1B通过量化压缩，给出了三档部署方案：

FP16精度，权重约2GB，跑在GPU和高端笔电上，零量化损失；
INT8精度，权重约1GB，跑在普通笔电和边缘盒子上，几乎无损；
INT4精度，权重约0.5GB，跑在手机、平板、车机上，几乎无损。

0.5GB是什么概念？一部手机随便一个App的缓存都不止这个数。

这意味着一个能做奥赛级数学推理、能写代码的AI，可以塞进任何一台智能手机，不需要云端、不需要网络。

面壁还做了另一件事：自研了CPU推理框架ArcLight。GPU是AI推理的标配，但不是每台设备都有GPU；能在CPU上跑，意味着任何一台普通电脑、任何一个浏览器窗口都能成为AI的入口。配合INT4量化版，在任意浏览器里就能断网直接推理。打开浏览器，AI就在那里，不依赖任何服务器。

这改变了什么？

过去，AI的体验绑死在云端。你问它一句话，数据要跑一趟服务器，网络不好就卡，隐私敏感就不敢用，没网就彻底罢工。端侧AI把这条链路缩短到了本地——请求在设备上处理，响应即时返回，数据不出设备，断网也能用。

面壁用MiniCPM5-1B做了一个示范应用：AI桌宠。一个常驻电脑桌面的小角色，随时响应你的对话，可以设置不同人格。它看起来是个小玩具，但背后的信号很明确——当1B参数的模型能跑在端侧，AI应用的形态就不再受限于"对话框"了。它可以是一个桌宠、一个助手、一个嵌入任何App的智能模块，不需要联网、不需要等服务器响应。

桌宠只是开始。0.5GB意味着端侧AI的部署门槛几乎归零——任何一台手机、任何一辆车机、任何一个浏览器，都可以是AI的载体。

五、闭环已通

现在把这条链路完整地看一遍：

AI写的训练框架ForgeTrain，跑在华为昇腾等国产芯片上，训出了MiniCPM5-1B这个1B参数的"小钢炮"，最后0.5GB塞进手机，断网可用。

AI写框架 → 国产芯片训练 → 训出领先模型 → 跑在端侧。 每一个环节都已跑通，不是PPT，不是路线图，是已经发生的工程事实。

这条闭环的意义，需要放在更大的背景里看。

Andrej Karpathy，OpenAI的创始成员之一，曾提出"自动研究员"的设想——用AI加速AI的研究。后来他创办Eureka Labs，又加盟Anthropic预训练团队，目标正是用Claude加速预训练研究。Anthropic联合创始人兼政策主管Jack Clark在牛津大学给出了一个判断：到2028年底，AI跨过"递归自我改进"门槛的概率超过60%。DeepMind CEO Demis Hassabis则认为AGI将在2030年前后落地。

这些判断指向同一个方向：AI最终要能自己改进自己。但大多数人还在谈论"什么时候能实现"的时候，面壁已经走出了第一步——ForgeTrain证明了"AI写训练框架"这件事在工程上可行，而且结果比人类写的更好。

当然，诚实地说，ForgeTrain目前只覆盖了框架和算子层面，算法调参还没有交给AI。从"AI辅助研发"到"端到端模型生产"，再到最终的"递归自改进"，这条路还有距离。但第一步已经迈出去了，而且踩得很实。

如果说ForgeTrain解决的是"怎么训得更高效"，那面壁同期发布的另一个成果解决的是"怎么压得更小"——BitCPM-CANN，中国首个完全基于华为昇腾平台训练并开源的三值（1.58-bit）大模型。两条路径汇合的终点，都是端侧。推理显存节省约6倍，模型能力保留率90%–97.2%。这意味着什么？如果三值化路径持续演进，未来60B参数的大模型，也有望跑在手机上。

回看整条链路：AI写的框架，在国产芯片上训练，训出了超越更大模型的小模型，塞进了手机。而这条链路本身，又可以被更好的AI、更优的框架、更高效的训练方法不断迭代——这就是闭环的力量。

但ForgeTrain真正值得带走的，不只是这条链路本身，而是一个判断标准。

以后你看到任何一条"AI自改进"的新闻，都可以用这个标准独立判断它的分量：它是否打开了一条AI自己优化自己的路径？如果打开了，它就是起点，后面会越跑越快；如果没有，它只是一个终点，到此为止。

ForgeTrain打开了这条路径。所以它不是一个终点，而是一个起点。

MiniCPM5-1B和ForgeTrain均已开源：https://github.com/OpenBMB/MiniCPM

AI桌宠项目：https://github.com/OpenBMB/MiniCPM-Desk-Pet

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大模型部署

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大模型部署

登录后参与评论

0 条评论

热度