腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

综合排序丨最热优先丨最新优先

ChatGLM团队发布AI Agent能力评测工具AgentBench：GPT-4一骑绝尘，开源模型表现非常糟糕！

这个AgentBench是评测LLM作为Agent的能力，通过评测LLM在细分任务的得分来确定LLM作为Agent的水平，主要结论就是商业模型表现远超开源模型，更加适合作为Agent来使用，而GPT-4 AgentBench简介 AgentBench是一个系统的基准，用于评估大语言模型（LLM）作为代理执行实际任务的能力。为此，AgentBench创建了8个不同的场景，针对上述能力来评估LLM作为Agent的表现，包括：操作系统：评估LLM在Linux系统的bash环境中的操作能力，如文件操作、用户管理等。但是，目前开源模型与商业模型之间还存在显著的差距，开源模型在AgentBench上普遍表现较弱。这提示开源LLM的代理能力仍有提升空间。 AgentBench论文：AgentBench: Evaluating LLMs as Agents 论文地址：https://arxiv.org/pdf/2308.03688.pdf AgentBench

2024-07-19

9920

标签:

ModaHub魔搭社区：AI Agent在操作系统场景下的AgentBench基准测试

近日，来自清华大学、俄亥俄州立大学和加州大学伯克利分校的研究者设计了一个测试工具——AgentBench，用于评估LLM在多维度开放式生成环境中的推理能力和决策能力。研究者还表示，AgentBench是一个多维动态基准测试，目前由8个不同的测试场景组成，未来将覆盖更广的范围，更深入地对LLM进行系统性评估。左图，几种常见的LLM在AgentBench提供的8种场景中的表现。右图，AgentBench在8种场景中的总得分。虚线表示开源LLM（绿色）与基于API的LLM（橙色）的平均得分。图源：来自论文AgentBench评估哪些场景？AgentBench包含8个不同的环境，其中5个是首次使用的环境：操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题（即所谓的“海龟汤”游戏）。此外，AgentBench可以系统地评估LLM的核心能力，包括执行指令、编码、获取知识和逻辑推理能力。图片▷图注：AgentBench基本构想示意图。

LCHub低代码社区

2023-08-20

1.2K0

标签:

清华团队领衔打造，首个AI agent大模型基准测试网站问世AgentBench

为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn)，用来评估 LLMs 作为智能体在各种真实世界挑战和相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题，已发表在预印本网站 arXiv 上。另外，相关数据集、环境和集成评估包也已发布在 GitHub 上。 /AgentBench首个系统性基准测试在以往的研究和实践中，基于文本的游戏环境已被用于语言代理的评估。 (agentbench.com.cn)对 25 个不同的语言模型（包括基于 API 的模型和开源模型）进行了全面评估。测试结果显示，像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务，而大多数开源 LLMs 在 AgentBench(agentbench.com.cn) 中的表现远远不及基于 API 的 LLMs

LCHub低代码社区

2023-08-14

2.7K0

标签:

2025年AI Agent评测基准全景指南：从选型困惑到落地实战

从OpenAI的PaperBench到美团的VitaBench，从学术界的AgentBench到企业级的评估框架，每个基准都声称能准确衡量智能体性能。 1.1市场现状：评测基准的三大阵营当前市场上的AIAgent评测基准可以分为三个主要阵营：学术研究阵营：以AgentBench、GAIA为代表，专注于通用能力评估优势：理论基础扎实，评测维度全面局限：与实际业务场景存在差距产业应用阵营实际意义：为生活服务类AI应用提供评测标准帮助企业评估AIAgent在多场景协同中的表现推动AI从单一任务向复杂场景应用的演进2.3AgentBench：多环境通用能力的全面检验AgentBench作为目前应用最广泛的多环境我们总结了一个实用的选型矩阵：科研与学术场景：首选：PaperBench+AgentBench组合理由：PaperBench专门评估学术研究能力，AgentBench提供通用能力基准适用对象：高校、科研院所评测方案：基础能力评测：使用AgentBench测试通用对话能力场景化评测：使用VitaBench的电商相关任务进行专项测试业务指标：自定义客户满意度、问题解决率等KPI实施过程：基准测试阶段：发现AI

2025-11-27

3.6K0

标签:

腾讯云智能体开发平台

Agent评测机制概述

主流评测基准 3.1 通用Agent评测基准基准名称发布机构评测重点任务类型 AgentBench 清华大学等综合Agent能力 8种环境任务 GAIA Meta+HuggingFace 通用：DeepEval、TruLens 生产环境监控：LangSmith、Arize Phoenix 多Agent系统：AgentNeo、MultiAgentBench 学术研究：OpenCompass、AgentBench

2026-04-09

7130

标签:

智能体测试 vs 传统测试：范式跃迁

Capability Benchmarking）：拆解智能体必备能力：工具理解力（能否正确解析API文档）、上下文压缩精度（长对话中关键信息保留率）、自我纠错率（首次响应错误后主动修正的比例），使用标准化数据集（如AgentBench 未来，‘能通过AgentBench基准测试’将如同‘通过ISO 25010质量模型’一样，成为智能体交付的硬性门槛。

2026-05-20

1560

标签:

AgentLM：能打的 Agent 模型来了！7B，13B，70B 全开源

还记得在 8月份，我们公开的 AgentBench 测试榜单吗？在当时的榜单中，各类开源模型的智能体能力普遍表现不佳。答：的确，在 AgentBench 的榜单中我们可以清晰地看到开源模型和闭源模型之间的巨大鸿沟。

2023-12-22

2.4K0

标签:

知识学习 | 2026 年 LLM 评测体系 & 主流开源模型启示

有效防止数据污染真实体验 Chatbot Arena 人类盲评最贴近用户实际感受，最难作弊二、 AI 智能体 (Agent) 的三张考卷 “会聊天”不代表“会做事”，智能体能力由以下三类测试界定： AgentBench

2026-06-02

2440

标签:

Agent常见测评基准概述

一、综合/通用基准 AgentBench 目的：评估 LLM 作为 Agent 的推理与决策能力。结论从以上整理可以看出来，不同基准从多角度检验 Agent 的核心能力：任务完成与过程评估：AgentBench、τ-Bench 等通用基准关注多环境任务成功率，TaskBench/TaskEval AgentBench: Evaluating LLMs as Agents – https://arxiv.org/pdf/2308.03688 2. arc-agi blog.

小陡坡香菜

2025-12-24

2.3K0

标签:

大模型评测体系介绍及中文大模型表现

JEC-QA（中）、CUAD（美）软件：LogBench（中）、OpsEval（中）通信：NetEval（中）互联网：MSQA（美）代码助手：MBPP（美）、HumanEval（美） AI智能体：AgentBench

2025-05-30

3.2K0

标签: