AI智能体的系统架构与安全治理：从输出风险到行动风险

文 | 北京理工大学法学院教授洪延青

近年来，人工智能系统正从以对话生成为主，转向能够调用工具、访问外部数据并执行具体任务的智能体形态。与传统生成式AI聊天系统相比，AI智能体不仅能生成文本，还可通过浏览器、文件系统、企业业务接口或其他执行环境改变外部状态，引发业务、财产、数据安全乃至法律责任后果。因此，其风险重心也从回答是否准确、内容是否适当，扩展到上下文归属是否正确、状态写入是否可信、工具调用是否越权、外部执行是否可控等问题。

一、AI智能体的双重风险

AI智能体是指以大模型为推理、规划或决策组件，能够在系统编排下接收外部事件、维持任务状态、调用工具，并在一定自主性下影响外部数字环境或业务流程的应用系统。相应地，本文将AI智能体相关风险区分为输出风险与行动风险。输出风险是指模型生成内容本身引发的风险，例如，虚假信息、偏见表达、违法有害内容或误导性建议。行动风险则是指模型输出被系统进一步转化为状态写入、权限调用、工具执行或业务操作后，对账户、数据、资金、设备、流程和责任分配产生现实影响的风险。两者之间的差异在于：输出风险主要停留在信息表达层面，通常可通过内容审核、标识、纠错、投诉处理等机制进行缓释；而行动风险一旦进入执行链路，则可能造成数据泄露、资产损失、业务中断、权限滥用或责任外溢等严重后果，其危害等级通常更高。因此，治理重点也需从单纯的内容审核，扩展到身份、权限、状态、工具、审批和证据管理等更系统的维度。

二、AI智能体的基本系统架构

与以文本生成为主的AI聊天系统相比，AI智能体的突出特征在于能够接收事件、维持状态、调用工具并在外部环境中产生实际后果的系统形态。用户向系统发送一条消息，只是其中一种输入来源；定时任务、网络钩子（Webhook）、文件变化、系统心跳以及其他外部信号，也都可能触发AI智能体运行。AI智能体之所以表现出某种持续在线或主动工作的特征，通常并不是因为模型在后台持续思考，而是系统围绕这些输入构建了持续响应的事件驱动机制。

因此，理解AI智能体，要将其置于一个由控制面、运行时、状态、工具和执行环境共同构成的系统中加以分析。就工程结构而言，生产环境中的AI智能体大体可以概括为五个相互衔接的层次。

第一层是入口与控制面。这一层负责接收来自聊天渠道、企业系统接口、Webhook、定时器等不同来源的事件，并完成身份识别、会话归属、路由分发、并发控制和基础策略校验。它决定的是这次输入属于谁、应进入哪个会话、由哪个AI智能体实例处理，以及在什么条件下进入后续流程。对于AI智能体而言，这一层是整个系统的核心组织中枢。

第二层是运行时与状态层。这一层负责组织一次AI智能体运行的基本循环，即读取上下文、调用模型、处理工具结果、更新会话状态并生成响应。与普通聊天系统相比，AI智能体的一个重要变化在于需要处理的不仅是当前输入，还包括会话历史、长期记忆、外部检索结果以及中间执行状态。也正因如此，状态管理成为AI智能体架构中的关键环节。

第三层是模型层。模型承担着意图理解、任务分解、工具调用规划和自然语言生成等功能。它是AI智能体中的推理部件，但不是整个系统的全部。实践中，模型输出往往只是一个中间结果：它可以是面向用户的文本，也可以是一个工具调用请求，或是一组待执行的操作步骤。

第四层是工具与执行层。这一层决定AI智能体能做什么，以及这些能力在现实中会产生什么后果。浏览器、文件系统、命令行接口、企业业务接口、跨会话操作接口、插件和外部协议连接，都属于这一层的组成部分。需要强调的是，工具可调用与动作实际发生并非同一件事。模型看到的只是工具名称、参数结构和能力说明；而真正决定现实后果的是工具背后的执行目标、继承身份和运行环境。

第五层是观测与评估层。这一层包括日志、链路追踪、运行状态、工具调用记录、审批记录、错误诊断和回归评估等内容。对于AI智能体而言，系统是否经过审批、工具是否真正执行、外部接口返回了什么结果、是否发生重试、是否存在重复投递或跨会话读取，这些都需要通过额外的观测和评估机制来还原。也正因如此，AI智能体比一般对话系统更依赖运行证据的留存与事后评估。

从上述五层架构可以看出，AI智能体的一次运行，本质上是一条从事件进入到行动产生的系统链路：外部输入进入控制面，由控制面完成归属和调度，运行时加载状态并组织流程，模型形成输出或工具调用意图，工具与执行层将其转化为实际动作，观测与评估层则记录并解释这一过程。

三、AI智能体安全治理的四个独特问题

上文所述的五层架构是理解AI智能体风险的系统性基础；而本部分讨论的四个独特问题，则对应了该架构在安全治理中的具体失控点。

（一）会话边界与授权边界容易被混淆

在AI智能体系统中，会话机制首先解决的是上下文组织问题，即系统需要知道哪次输入属于哪个会话、应当加载哪些历史状态、由哪个运行实例继续处理。但在实际部署中，会话边界常常会被误当作权限边界使用。也就是说，系统虽然完成了“消息被正确分到某个会话”的路由，却未必真正回答了“哪个用户、服务账号或AI智能体实例有权进入该会话、读取其中状态，并调用与该会话绑定的工具和外部能力”的问题。

这一风险在多用户共享AI智能体、共享客服入口、共享群组渠道等场景中尤其明显。这里的低权限用户，是指仅能访问部分数据、仅能触发低风险功能，或者仅具有普通用户权限的使用者；而外部系统凭证，则是指AI智能体访问浏览器登录态、企业SaaS、数据库、邮件、工单、支付或运维系统时使用的账号、Token、API Key、Cookie等认证材料。不同用户虽然在界面上看似只是分别与同一个AI智能体交互，但如果其消息被汇入同一上下文，或者AI智能体共享同一浏览器身份、同一组外部系统凭证和同一执行环境，那么低权限用户就可能借助自然语言输入，影响本不属于其权限范围的状态和能力。

（二）持久记忆写入会把瞬时输入转化为长期风险

AI智能体的记忆经常被理解为模型变得更会记事，但从系统角度看，真正发生的通常是状态写入与后续重建。会话中的信息一旦被写入长期存储，并在后续运行中通过检索再次进入运行路径，便会成为未来许多轮决策的参考依据。由此，记忆系统把原本只影响当前回合的风险，扩展成了跨时间持续存在的风险。

这意味着，在AI智能体场景下，数据写入往往比读取更值得警惕。一次普通的提示词注入如果仅影响当前输出，其危害通常是局部和短时的；但如果这类输入被系统误认为应长期保存的事实并写入记忆库，它就会在未来多次运行中被重新检索和利用，形成对后续决策的持续污染。此时，风险已经从即时误导转化为长期偏转。因此，长期记忆应被理解为一种高敏状态写入机制。哪些信息可以写入、由谁写入、在什么范围内生效、何时删除，这些要素都会直接影响系统未来的行为边界。

（三）工具能力说明与实际执行权限之间存在错配

这里的工具能力说明，是指系统向模型提供的工具名称、参数结构和用途描述；实际执行权限，则是指该工具在真实环境中以何种身份、权限和目标对象完成操作。二者的错配主要表现为：模型看到的是抽象的、看似低风险的能力标签，而系统实际连接的却可能是高权限账号、真实生产环境或可写入业务系统；模型以为只是打开网页、查询数据或生成草稿，执行层却可能完成登录态访问、数据变更、对外发送或命令执行。

AI智能体的另一个突出问题，在于模型看到的能力描述与现实中发生的执行后果之间并非一一对应的。模型在提示词中接触到的，往往只是工具名称、参数模式和能力说明；而真正决定结果的是工具背后连接的执行目标、身份继承关系和环境权限配置。换言之，工具清单告诉模型可以请求什么，而执行环境决定系统实际上会做什么。

这一点在浏览器、命令行接口、宿主机接口、节点设备和外部协议连接上尤为明显。同样是打开网页或执行命令，在隔离浏览器、登录态浏览器、沙箱环境、宿主机环境或远程节点上的后果差别极大。对于普通聊天系统，这类差异通常不会转化为现实损害；但对于AI智能体而言，一次模型误判、一次间接提示词注入，甚至一次普通的参数填充错误，都可能越过文本层，直接触发外部系统调用、文件写入、跨会话操作或浏览器中的高权限行为。插件和扩展机制还会进一步放大这一问题，因为它们不仅增加了工具数量，还可能增加新的控制面入口、后台服务和跨系统连接路径。由此可见，AI智能体安全中的关键问题，不仅是模型是否会产生错误输出，更是系统会在多大范围内、以何种权限、经过何种校验，将模型输出转化为真实操作。

（四）证据不足会使事故难以复盘、整改和问责

近年来，围绕大模型应用和AI智能体的安全研究已经反复指出，提示词注入、过度代理、工具误用、身份与权限滥用等风险，都会使模型输出进一步影响工具调用、权限继承和外部执行。对接入企业账号、浏览器登录态或自动化工作流的AI智能体而言，如果缺少触发记录、工具调用记录、审批记录和执行回执，组织将难以判断事故究竟是由模型误判、提示词注入、权限配置错误，还是外部接口异常所造成。

因此，AI智能体的治理问题还表现在系统是否具备足够的证据闭环，以支持事后解释。这里需要区分两个概念。其一，可观测性解决的是系统是否留下了可供检查的运行痕迹；其二，评估解决的是这些痕迹能否被用来判断系统是否达到预期目标，以及是否需要修正。如果没有前者，事故将无法还原；如果缺少后者，经验则无法沉淀为改进机制。相比传统软件或普通聊天系统，AI智能体更容易触及真实的资产、账户和业务后果，因此，也更需要结构化的日志、审批记录、工具调用回执、执行结果证明和回归评估机制。如果缺少这些要素，组织即便意识到系统存在风险，也很难形成稳定、可验证的治理闭环。

综上，AI智能体的独特安全问题，来自模型已经被接入状态、工具、执行环境和外部业务流程。正是在这一背景下，会话与授权混淆、记忆写入污染、能力与执行错配以及证据链不足，成为AI智能体区别于普通聊天系统的几个关键治理问题。

四、面向部署、备案与监管的治理建议

围绕AI智能体的真实运行链路，治理建议应同时面向部署者的工程控制、服务提供者的合规备案和监管者的持续监督。对于向境内公众提供生成式人工智能服务的场景，应与《生成式人工智能服务管理暂行办法》规定的安全评估、算法备案、监督检查、投诉举报和违法内容处置等制度相衔接；对于具有舆论属性或者社会动员能力的服务，还应将AI智能体特有的会话、状态、工具、执行和证据机制纳入安全评估和备案材料。对于不直接面向公众、但进入政务、金融、医疗、教育、关键信息基础设施等高敏业务流程的AI智能体，也应参照国家标准和行业安全要求，建立内部审查、分级授权、日志留存和事故复盘机制。

（一）把会话管理与授权控制明确分开

应当明确会话机制与授权机制并非同一层问题。会话标识解决的是上下文归属、状态组织和路由调度，不能直接替代访问控制。对于部署者而言，在多用户、共享入口、共享客服和共享运维等场景下，应尽量采用更细粒度的会话隔离策略，并将授权判断放在独立控制面中完成，而不是依附在会话键或前端展示逻辑之上。尤其是在多个用户可能共同接触同一AI智能体实例时，更应避免将共享会话、共享浏览器身份和共享外部系统凭证叠加在一起。上述要求可以转化为身份与权限说明材料，说明谁可以触发AI智能体，谁可以进入某类会话，谁可以调用某类工具，外部系统凭证如何隔离，高风险能力如何授权，以及相应行动由谁承担责任。对于涉及公共服务、金融、医疗、政务、关键信息基础设施等高敏领域的部署，应鼓励采用独立账号、独立浏览器配置、独立执行环境乃至独立宿主机的方式缩小权限共享面，避免低权限输入通过共享控制面影响高权限外部资源。

（二）把长期记忆写入视为高敏操作加以治理

应当将记忆系统的治理重心置于写入而非留存。稳妥的做法是在架构层面区分会话历史与长期记忆，区分临时上下文与持久状态，并把长期记忆写入纳入更严格的策略控制之中。哪些来源可以写入，写入内容在什么范围内生效，保留多久，是否允许用户删除或更正，都应成为部署前需要预先设定的问题。

在工程实现上，较为合理的路径是：一方面，通过检索、再读取的方式按需重建上下文，避免将大量持久信息长期驻留于提示词热路径中；另一方面，对长期记忆写入附加来源标识、时间戳、作用域和删除机制，降低不可信输入长期沉淀的可能性。因此，在高风险应用中，可以考虑将长期记忆写入规则、记忆更新与清除机制、用户更正与删除路径纳入最低治理要求，使记忆系统从黑箱功能转化为可说明、可管理的状态机制。

与现有监管规则衔接时，长期记忆写入还应纳入数据处理和个人信息保护合规框架。凡是涉及用户输入信息、使用记录、偏好信息、身份信息或业务数据的记忆写入，都应说明写入来源、处理目的、保存期限、作用范围和删除路径。对于用户依法提出的查阅、更正、补充、删除请求，系统也应能够将其落实到长期记忆和相关状态存储之中，而不能只在前端对话记录层面处理。

（三）围绕执行后果建立高风险能力清单

应当将治理重点从系统暴露哪些工具，转向这些工具最终会在何种条件下产生何种后果。从AI智能体架构看，同一类工具标签背后可能对应完全不同的执行目标、权限继承关系和风险范围。因此，应进一步明确这些能力是在隔离环境中执行，还是在真实登录态、真实宿主机、真实业务系统或外部节点上执行。

具体而言，应尽可能坚持最小权限原则，对工具和执行环境进行分级配置。仅需只读的，不应默认写入；可于沙箱中完成的，不应直接连接宿主机；可通过专门账号执行的，不应复用个人或广域账号。对于插件、扩展模块和协议连接，也不应仅将其视为功能增强，而应视为新的能力入口与信任决策。对这类能力，应实行更严格的白名单、版本固定、来源审查及紧急停用机制。

在此基础上，还应将人工确认和审批机制放在真正产生外部副作用的边界上。对于涉及对外发送、数据库写入、资金划拨、合同提交、系统配置变更、权限调整、跨会话读取或跨系统操作等高风险动作，应在真实执行前设置人工确认或分级审批节点，并保留审批主体、审批时间、审批内容、执行参数和执行结果。对于可能造成不可逆后果的动作，还应设置二次确认、限额控制、回滚机制和紧急停止机制，使高风险行动在进入外部系统之前接受可验证的控制。

（四）建立最小证据闭环和渐进式上线机制

应把证据机制和评估机制视为AI智能体可治理性的基础条件。因此，在部署层面，应形成一个最小证据包，至少包括触发源、触发主体、会话归属、关键上下文加载信息、长期记忆命中情况、工具能力清单、工具调用参数、人工审批记录、执行回执、错误日志、重试记录、回滚记录和必要的链路追踪信息。对于面向公众或高敏业务流程的AI智能体，该证据包不仅服务于内部事故复盘，也应能够支撑安全评估、监督检查、投诉处理和事故报告。换言之，AI智能体的日志不应只是工程调试材料，而应成为证明系统是否合规、行动是否授权、责任是否可追溯的治理材料。对于高风险场景，还可考虑把日志留存、关键操作留痕、事故报告、定期审查和灰度上线要求纳入治理规则之中，确保AI智能体系统在进入更高强度自动化之前，先满足基本的可解释、可追踪和可纠偏的要求。

总体而言，AI智能体治理的关键，是把治理对象从生成内容扩展到状态、权限、工具、执行和证据。输出风险要求回答可控，行动风险则要求系统可控。只有在会话与授权边界清晰、长期记忆写入审慎、工具执行权限可控、高风险行动可审批、运行过程可追溯的条件下，AI智能体才可能在可用性与可控性之间形成较为稳健的平衡。

（本文刊登于《中国信息安全》杂志2026年第5期）

声明：本文来自中国信息安全，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

AI智能体的系统架构与安全治理：从输出风险到行动风险

如何客观比较人类代码和LLM生成代码的安全性？

图片越糊越危险？西湖大学发现多模态大模型“攻击舒适区”

近3个月斩获50万美元赏金：利用AI驱动的模糊测试流水线黑掉谷歌