AgentPLM：当蛋白质语言模型开始具备“工具调用”和“在线纠错”能力

Tom2Code

发布于 2026-06-11 19:39:46

论文题目： AgentPLM: Agentic Protein Language Models with Reasoning-Augmented Decoding for Protein Sequence Design 研究方向： 蛋白质语言模型、蛋白质序列设计、Agentic AI、工具增强生成、偏好优化 核心关键词： Protein Language Model, Agentic Design, Reasoning-Augmented Decoding, CAPO, ESMFold, FoldX, AutoDock Vina

论文地址：https://arxiv.org/html/2606.02386v2

模型的流程图

一、研究背景：蛋白质语言模型的能力边界正在显现

过去几年，蛋白质语言模型（Protein Language Models, PLMs）已经成为计算蛋白质设计领域的重要基础模型。从 ESM-2、ProtTrans 到 Ankh，这类模型通过在大规模蛋白质序列数据库上进行自监督预训练，能够学习到序列中的进化约束、结构偏好和部分功能信息。基于这些表征，PLM 已经被广泛用于 zero-shot fitness prediction、突变效应预测、序列生成、结构辅助设计等任务。

然而，当前多数 PLM 在蛋白质设计任务中仍然遵循一种相对“被动”的工作模式：模型基于已有序列上下文一次性生成或打分，但在生成过程中无法主动检查候选序列是否违反结构稳定性、结合特异性或功能相关约束。

这一点与真实蛋白质工程流程存在明显差异。

在实际研究中，蛋白质设计通常不是“一次生成—直接实验”的过程，而是一个多轮迭代闭环：先提出候选序列，再进行结构预测、稳定性评估、分子对接或功能打分，随后根据计算反馈继续修改候选，并最终进入表达、纯化、BLI、酶活或细胞水平验证。

因此，蛋白质设计真正需要解决的问题并不是单纯的“序列生成”，而是如何在复杂约束下完成动态决策。

AgentPLM 正是在这一背景下提出的。该工作的核心观点是：传统 PLM 更像一个 passive oracle，而不是一个可以根据外部反馈调整生成策略的 design agent。作者希望通过引入工具调用、轨迹记忆和偏好优化，使 PLM 具备类似蛋白质工程师的“边设计、边检查、边修正”能力。

二、核心科学问题：PLM 如何从静态生成器变成动态设计智能体？

这篇文章试图回答一个非常关键的问题：

能否让蛋白质语言模型在生成过程中主动调用外部生物物理 oracle，并利用反馈实时修正后续序列生成？

在传统自回归 PLM 中，序列生成可以表示为：

模型根据前面已经生成的氨基酸，预测下一个氨基酸，直到完成整条序列。

这种方式存在两个重要局限。

第一是 structural blindness。模型在生成过程中并不会看到当前部分序列的结构可行性。换句话说，它并不知道当前序列是否已经导致局部折叠不稳定、整体构象不合理或活性区域几何关系异常。

第二是 epistatic blindness。蛋白质中不同残基之间常常存在长程非加性耦合。一个位点的突变可能只有在另一个远端位点同时变化时才表现出功能或稳定性差异。传统自回归分解虽然可以建模一定上下文依赖，但并不等价于在生成过程中显式检查这些生物物理约束。

因此，AgentPLM 的问题设定不是继续扩大 PLM 参数量，而是重新定义蛋白质序列设计范式：

蛋白质生成不应只是 token prediction，而应是一个带有状态、动作、反馈和奖励的序贯决策问题。

三、方法框架：AgentPLM 的四个关键模块

AgentPLM 的总体架构可以概括为：

ESM-2 backbone + 工具调用 token + Tool Context Encoder + Trajectory Memory Buffer + Reasoning-Augmented Decoding + CAPO 训练目标。

该框架并不是简单地把 ESMFold、FoldX 或 AutoDock Vina 接到模型后面做后处理，而是将外部 oracle 的反馈整合进生成过程本身。

1. 将蛋白质设计建模为 POMDP

作者首先将蛋白质序列设计形式化为一个部分可观测马尔可夫决策过程（POMDP）。

在这个设定下，模型每一步面对的状态不仅包括当前已经生成的部分序列，还包括历史工具调用信息。模型的动作空间也被扩展，不再仅包含 20 种氨基酸，而是加入了多个工具调用 token。

也就是说，模型在每一步可以选择两类动作：

一类是生成下一个氨基酸；另一类是暂停生成，调用外部 oracle，例如 ESMFold、FoldX 或 AutoDock Vina。

如果模型选择调用工具，序列位置不会向前推进。外部工具会对当前部分序列进行评估，其输出被编码后重新注入模型，使模型能够基于新的生物物理反馈重新判断当前位置或后续区域的生成策略。

这一步是 AgentPLM 与普通 PLM 的根本区别。

传统 PLM 是单向生成； AgentPLM 是生成—评估—记忆—再生成。

2. Reasoning-Augmented Decoding：生成过程中的在线工具调用

Reasoning-Augmented Decoding，简称 RAD，是 AgentPLM 的核心推理机制。

在 RAD 中，模型并不是一次性输出完整序列，而是在每个位置判断是否需要调用 oracle。当模型认为当前内部表征与外部生物物理反馈之间可能存在不一致时，可以触发工具调用。

本篇文章中使用的主要工具包括：

ESMFold：用于评估结构折叠合理性，例如 pLDDT 和坐标信息； FoldX：用于评估突变或局部序列变化对热力学稳定性的影响，例如 ΔΔG； AutoDock Vina：用于评估结合相关信息，尤其适用于 ligand/interface 相关任务。

RAD 的重要设计在于：工具调用不会直接替代模型生成，而是作为一种在线纠偏信号改变模型后续 token 分布。

从机制上看，这不是传统意义上的显式回溯，而更接近一种 conditional correction。模型在接收 oracle feedback 后，会重新计算当前状态下的输出概率，从而影响后续残基选择。

这一点对蛋白质设计尤其重要，因为很多设计错误不一定需要完全推翻整条序列，而是可以通过局部补偿突变、稳定性修复或界面重排进行调整。

3. Tool Context Encoder：异质 oracle 输出的统一编码

AgentPLM 面临的一个实际问题是，不同工具的输出形式差异很大。

ESMFold 输出的是结构相关张量； FoldX 输出的是稳定性相关标量； AutoDock Vina 输出的是结合打分向量。

这些信息不能简单拼接进 Transformer，否则模型很难在统一语义空间中理解这些反馈。因此，作者设计了 Tool Context Encoder，简称 TCE。

TCE 的作用是将不同 oracle 的输出投影到 PLM 的 latent space 中，使结构、稳定性和结合信息能够以统一的上下文表示形式被模型使用。

从模型设计角度看，TCE 解决的是多模态生物物理反馈与蛋白质语言模型表征空间之间的对齐问题。从 AIDD 角度看，它对应的是一个非常实际的问题：不同计算工具输出的“分数”并不在同一尺度，也不具有相同生物学含义，因此必须经过表示层面的融合与归一化。

4. Trajectory Memory Buffer：让模型记住整条设计轨迹

如果模型每次调用工具后只使用当前反馈，而不保留历史信息，那么它仍然很难形成连续的设计策略。

例如，早期 ESMFold 反馈可能提示整体 fold 尚可；中期 FoldX 反馈可能指出某个区域不稳定；后期 Vina 反馈可能表明界面结合趋势改善。这些信息共同构成一条设计轨迹，而不是彼此独立的局部判断。

因此，AgentPLM 引入了 Trajectory Memory Buffer，简称 TMB。

TMB 将历史工具调用结果压缩成固定大小的 memory vector，并通过 gating 机制注入后续 Transformer layer。这样，模型在后续生成时能够持续感知此前的结构、稳定性和结合反馈。

这一设计使 AgentPLM 不只是“会调用工具”，而是具备了对设计历史的压缩记忆。对于蛋白质工程任务来说，这一点非常关键，因为功能性序列通常不是由某一个局部决策决定的，而是由多个约束在整条序列尺度上的协同满足决定的。

四、训练目标：CAPO 不只是学习高分序列，而是学习高质量设计轨迹

AgentPLM 的另一个关键贡献是提出 Contrastive Agent Policy Optimisation，简称 CAPO。

CAPO 可以理解为一种面向“设计轨迹”的偏好优化方法。它受到 DPO 思想启发，但优化对象不再是单轮 response，而是包含氨基酸选择和工具调用行为的完整 trajectory。

作者构建 winner / loser trajectory pairs：首先使用 reference policy 生成候选序列；然后用 FoldX、ESMFold、AutoDock Vina 等 oracle 评价候选；将 top-10% 作为 winner trajectories，将 bottom-10% 作为 loser trajectories；最后训练模型偏好那些高 fitness 且工具使用一致的轨迹。

这与普通监督微调有本质差异。

普通 SFT 更像是让模型模仿高分序列； CAPO 则试图让模型学习：什么样的生成路径更可能产生高质量序列，什么时候调用 oracle 有信息价值，哪些 oracle feedback 应该改变后续生成。

这一点是 AgentPLM 中非常值得关注的思想。在 AIDD 场景下，我们经常并不缺少“打分器”，真正缺少的是一个能够根据多源反馈主动调整候选生成方向的策略模型。

换句话说，AgentPLM 不只是优化 sequence output，而是在优化 design policy。

五、实验设计：覆盖五类蛋白质工程任务

作者在五类 benchmark 上评估 AgentPLM：

ThermoStab-75：热稳定性优化，评价指标为 Tm 提升；
AntibodyOpt-VH：抗体 VH 优化，评价指标为 top-10% hit rate；
EnzymeDesign-EC3：酶设计，评价指标为 normalized kcat/Km；
PPI-Interface：蛋白-蛋白相互作用界面设计，评价指标为 ΔGbind improvement；
ZeroShot-Fitness：基于 ProteinGym DMS 数据集进行 zero-shot fitness prediction，评价指标为 Spearman ρ。

对比方法包括 ESM-2、ProteinMPNN、EvoProtGrad、RFdiffusion-AA 和 ProtAgent。

五类benchmark

这种实验设置覆盖了蛋白质设计中的几个关键场景：稳定性、亲和力、酶活、界面设计和突变效应预测。

其中，抗体优化、酶设计和 PPI interface 设计尤其能体现 AgentPLM 的优势，因为这些任务对结构反馈、局部稳定性和多残基耦合关系更加敏感，仅依赖进化统计通常不足以获得高质量候选。

六、主要结果：AgentPLM 在复杂约束任务中优势明显

实验结果显示，AgentPLM 在五类任务上均优于基线方法。

其中，抗体优化任务中 AgentPLM 的 top-10% hit rate 达到 52.41%，明显高于 ProtAgent 的 27.38% 和 ESM-2 的 12.37%。

在酶设计任务中，AgentPLM 的 normalized kcat/Km 为 1.89，高于 ProtAgent 的 1.34 和 ESM-2 的 0.43。

在热稳定性任务中，AgentPLM 的平均 Tm improvement 为 7.64 ℃，高于 ProtAgent 的 5.19 ℃。

在 PPI interface 设计中，AgentPLM 同样取得了更优的 ΔGbind improvement。

这些结果说明，AgentPLM 的提升并不是简单来自更强的预训练模型，而是来自在线 oracle feedback 与策略优化的结合。

尤其值得注意的是，AgentPLM 在抗体优化和酶设计任务上的提升最为明显。这两类任务具有典型的数据稀缺和功能约束复杂特征，单纯依赖 PLM 的 evolutionary prior 往往不足以可靠搜索高 fitness 区域。

在所有对比指标中的表现

从 AIDD 视角看，这一点非常重要：当任务足够复杂、数据足够稀缺、约束足够多时，生成模型本身的能力上限会受到限制。此时，模型是否能够动态利用结构、能量和结合反馈，可能比模型规模本身更加关键。

七、消融实验：性能提升主要来自 RAD 与 CAPO 的协同

消融实验是这篇文章中最值得重点讨论的部分。

当去掉 RAD，即不允许模型在线调用工具时，ThermoStab 从 7.64 ℃ 降至 5.31 ℃，AntibodyOpt 从 52.41% 降至 28.17%。这说明在线工具调用是 AgentPLM 性能提升的主要来源。

当将 CAPO 替换为普通 SFT 时，性能也明显下降，说明模型不能只学习高分序列，还必须学习高质量工具调用轨迹。

去掉 TCE 后，说明异质 oracle 输出如果不能被有效编码，会削弱模型利用外部反馈的能力。

去掉 TMB 后，性能同样下降，说明历史工具调用信息对于后续生成具有持续价值。

此外，作者还比较了不同工具调用预算 Bmax 的影响。结果显示，Bmax=8 是较优设置，而 Bmax=16 并未继续带来显著收益，反而增加推理延迟。

消融实验

这说明 AgentPLM 的关键不在于无限制调用外部工具，而在于学习“什么时候调用、调用什么、如何利用反馈”。

这一点对实际 AIDD pipeline 有很强启发：在真实项目中，计算 oracle 往往具有成本差异。ESM 打分、pLDDT、FoldX、docking、MD、MM/PBSA 或 FEP 并不应该被无差别使用，而应该形成分层筛选和动态调用机制。

AgentPLM 的价值恰恰在于，它将这种过去依赖人工经验设计的 pipeline 策略，转化为模型可学习的决策过程。

八、机制解释：AgentPLM 是否真的实现了在线纠错？

文章进一步通过 trajectory analysis 和 attribution analysis 解释 AgentPLM 的工作机制。

在生成轨迹中，不同 oracle 的调用位置呈现出一定时间分工： ESMFold 更倾向于在序列生成早期被调用，用于检查整体 fold compatibility； FoldX 更集中在中段区域，用于监测稳定性和结构连接区域； AutoDock Vina 更偏向后期调用，因为 binding interface 通常需要在较完整的序列上下文形成后才有评估意义。

不同模型被调用的时机

这一现象非常符合蛋白质工程逻辑：先判断整体 fold 是否合理，再局部修复稳定性，最后优化结合界面或功能相关区域。

此外，作者通过 integrated gradient attribution 显示，在一次 destabilizing FoldX call 后，模型注意力会集中到受影响的局部残基区域。这说明 oracle feedback 并非只是附加分数，而是能够改变模型内部表示和后续残基选择。

这部分结果是 AgentPLM 中比较有说服力的机制证据：模型确实在利用外部反馈进行 online error correction，而不是简单地在生成后筛选高分候选。

九、finally：这篇文章真正值得关注的地方

我认为这篇文章的意义不只是提出了一个新的蛋白质生成模型，而是提出了一种更接近真实科研流程的 AIDD 设计范式。

过去很多 AIDD 工作遵循的是“生成—打分—排序”的 pipeline。这种流程虽然有效，但模型本身并不理解为什么某些候选失败，也无法在生成过程中主动调整策略。

AgentPLM 的核心贡献在于将生成模型、计算 oracle 和偏好优化统一到一个序贯决策框架中。

这意味着未来的蛋白质设计模型可能不再只是回答：

“这条序列好不好？”

而是要进一步回答：

“当前设计到这个阶段，是否需要调用结构预测？” “这个稳定性反馈是否足以改变后续突变方向？” “当前局部结构问题应该通过哪些补偿性突变修复？” “哪些 oracle 是当前阶段真正有信息价值的？”

这其实更接近科学家的工作方式。

从 AIDD 研究角度看，未来重要的可能不是单一模型能力的提升，而是多模块协同设计系统的构建。PLM、结构预测、能量函数、分子对接、MD 模拟和实验反馈，都可能成为 agentic design system 中的不同 oracle。

如果进一步结合 wet-lab 数据，AgentPLM 这类框架还可以扩展为真正的实验闭环系统：计算生成候选；多 oracle 评估；选择少量候选进入实验；实验结果构建 preference pairs；再用偏好优化更新设计策略。

这可能比单纯训练一个 fitness predictor 更符合小样本蛋白质工程的现实情况。

十、局限性与需要谨慎解读的地方

尽管 AgentPLM 的思路很有启发性，但这篇文章仍然有几个需要谨慎看待的问题。

第一，模型性能高度依赖 oracle 质量。 ESMFold、FoldX、AutoDock Vina 都是计算近似工具，其输出与真实实验 readout 之间仍然存在差距。如果 oracle 本身存在系统性偏差，模型可能会学习并放大这种偏差。

第二，计算成本并不低。文章使用 ESM-2 650M 作为 backbone，并结合多种 oracle 和缓存系统。对于普通课题组而言，完整复现该框架具有一定门槛。

第三，CAPO 的 winner / loser 主要来自计算 oracle，而不是 wet-lab 数据。因此，当前框架更接近 oracle-guided optimization，而不是真正意义上的 experimentally grounded design。

第四，对于复杂功能任务，仅依赖 FoldX、ESMFold 或 Vina 仍然不足。例如酶催化需要考虑过渡态稳定、底物定位、动态构象变化和反应路径；PPI 或 protein-ligand binding 也可能受到溶剂、构象熵和诱导契合的影响。

因此，AgentPLM 更适合作为一个通用框架，而不是一个可以直接替代实验验证的终点模型。

十一、对后续 AIDD 研究的启发

AgentPLM 给我的最大启发是：

AIDD 的下一步，不是让模型一次性给出“最优答案”，而是让模型学会如何在不确定性中迭代决策。

对于蛋白质设计，可以考虑将 PLM 生成、结构预测、FoldX、ProteinMPNN、Rosetta、MD 以及实验 readout 组织成多层 oracle 系统。

对于 protein-ligand 体系，可以将分子生成模型、docking、pocket matching、MD stability、MM/PBSA 或 FEP 设计成动态调用模块。

对于小样本实验任务，可以将实验结果转化为 preference data，而不只是回归标签。例如高表达 vs 低表达，高亲和 vs 低亲和，活性提升 vs 活性下降，稳定 vs 不稳定。这些 pairwise preference 可能更适合用于训练下一代设计 agent。

从这个意义上看，AgentPLM 并不是单纯提出了一个新的模型结构，而是将蛋白质设计从“静态生成问题”推进到了“动态决策问题”。

总结

AgentPLM 的核心贡献可以概括为三点。

第一，它指出传统 PLM 在蛋白质设计中存在 passive oracle 局限，即缺乏生成过程中的结构、稳定性和结合反馈。

第二，它提出 RAD、TCE、TMB 和 CAPO，将工具调用、反馈编码、轨迹记忆和偏好优化整合进一个 agentic protein design framework。

第三，它在热稳定性、抗体优化、酶设计、PPI 界面设计和 zero-shot fitness prediction 等任务中显示出较强性能，尤其在复杂约束和数据稀缺任务中优势明显。

从 AIDD 视角看，这篇文章的真正价值在于，它提示我们：未来的蛋白质设计模型不应只是更大的生成器，而应是能够动态调用工具、整合反馈、修正策略并逐步逼近实验目标的科学智能体。

也许下一代 AIDD 平台的核心竞争力，不是单一模型的规模，而是能否构建一个真正可学习、可迭代、可闭环的 design agent。

完～

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-06-10，如有侵权请联系 cloudcommunity@tencent.com 删除

设计

本文分享自 Tom的小院微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度