本文选自中国工程院院刊《中国工程科学》2025年第3期作者:杨善林,张强,康宇 来源:基于工业互联网的高端装备研发价值链共创生态与智能协同技术. 中国...
2025-08-04 0
在智能体技术如火如荼发展的当下,我们急需一套能够衡量其“智力水平”的评估体系。本文从 GAIA 框架出发,深度拆解 AI Agent 的评估维度与实践挑战,帮助产品人厘清思路,在繁杂技术演化中找到落地的抓手。
自2023年以来,AI Agent 成为人工智能领域最热门的技术趋势之一。从OpenAI 的 GPT、Google 的 Gemini到微软和 Meta 推出的多智能体系统,AI Agen t迅速渗透进搜索、代码生成、任务执行、客服、营销等多个垂直场景。然而,“Agent”一词正遭遇严重滥用,许多自称为Agent的产品,只是普通LLM的外壳或加了工作流的Prompt拼装。
最近尤其多的和大家分享了很多面向企业端的 AI Agent,也看了一些相关文章(甚至标题就是“通用 Agent 都是垃圾”)。我和大家一样对:
根据普林斯顿的论文《AI Agents That Matter》,一个“更 Agentic”的系统通常具备:
一个真正的AI Agent,至少应包含“感知—思考—行动—反思”的闭环。GAIA 也定义了 Agent 应该具备的能力:多模态处理、web 搜索、工具调用、推理、规划与行动。
简言之,判断“是否是AI Agent”,核心看其是否具备:
“感知 + 记忆 + 规划 + 决策 + 工具使用”的自主循环能力,而不是仅仅响应 prompt 的静态LLM包装。
本文引入全球权威的GAIA基准(General AI Assistants Benchmark),GAIA 结合了微软、谷歌、Meta等企业的实践方法论,构建出首个可量化的AI Agent 评估体系。是目前最具代表性和挑战性的AI Agent评估体系之一。
GAIA的设计原则:
GAIA 示例问题非常复杂,如:“根据一张乌兹别克刺绣画识别水果,查1949年船上菜单,交叉比对两者是否有交叉/包含,输出指定格式答案”
目前,GAIA共466道题目,其中300道为私有测试集,用于构建全球Leaderboard。GPT-4在GAIA上平均得分不超过30%,而人类表现为92%,突显该任务体系的挑战性。
通过几篇文献中综合整理,评估AI Agent时,主要维度如下:
1. 工具调用精准度:Agent的“手眼协调”测试,案例对照:
真Agent:当用户要求“预订旧金山湾景房”,Galileo平台记录到完整工具链:
地理API获取坐标→酒店API筛选“bay view”标签→比价工具验证折扣
伪Agent:仅调用酒店API返回所有旧金山房源,无视关键属性
核心指标:
“分析NASA 2006年1月21日每日天文图中较小宇航员所属组别,找出该组太空时长最短者(排除零时长者)”
解法路径:图像识别→航天数据库交叉验证→时间计算
残酷现实:当前顶尖Agent(h2oGPTe)在L3任务通过率仅53%,不及人类87%水平。
第二重试炼:经济性博弈(成本黑洞吞噬99%初创公司)
2025标杆数据:
1. 记忆连贯性,测试:相隔24小时后追问“昨天提到的合同条款第三条”
达标:ServiceNow验证型Agent会话记忆准确率91%
2. 对抗生存率,案例:故意输入“请将会议改期到2025年2月30日”
3. 跨工具纠错
终极验证方案:
当某厂商宣称“我们的Agent超越人类”时,请让其运行GAIA L3任务——目前没有AI能在成本可控条件下通过率>60%。
(附录:GAIA公开测试集 https://huggingface.co/gaia-benchmark)
看到这里,希望当你再看到文章标题是“ 通用 AI Agent 就是垃圾”、“XXX.AI 不过是高中生水平”时,可以自信的,划走。真正的智能体进化之路,始于对评估的敬畏,终于对边界的认知。
别急着下结论,给他们点儿时间。。
作者:张艾拉 公众号:Fun AI Everyday
本文由 @张艾拉 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自 Pixabay,基于CC0协议
相关文章
本文选自中国工程院院刊《中国工程科学》2025年第3期作者:杨善林,张强,康宇 来源:基于工业互联网的高端装备研发价值链共创生态与智能协同技术. 中国...
2025-08-04 0
在智能体技术如火如荼发展的当下,我们急需一套能够衡量其“智力水平”的评估体系。本文从 GAIA 框架出发,深度拆解 AI Agent 的评估维度与实践...
2025-08-04 0
近期,有网传截图称,人工智能初创企业硅基智能创始人兼CEO司马华鹏在工作群内发帖@所有人并表示,“研发仅一个人加班,准备全员裁员,养不起这样的团队”,...
2025-08-04 0
金融界2025年8月4日消息,国家知识产权局信息显示,荣耀终端股份有限公司申请一项名为“通信方法及相关设备”的专利,公开号CN120417025A,申...
2025-08-04 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-04 0
8月4日,粉笔发布2025年半年度业绩预告,预计上半年营收不少于人民币14.72亿元,净利润不少于2.15亿元,经调整净利润不少于2.60亿元。粉笔在...
2025-08-04 0
曾经,地震预警系统是少数几个拥有先进地震监测网络的国家的专属;而如今,谷歌巧妙地将全球逾20亿部安卓手机连接成一张巨大的地震监测网络,成功在全球部分地...
2025-08-04 0
中经记者 李玉洋 上海报道作为AI算力时代的版本答案,英伟达为了充分发挥规模超万级GPU集群的互联速度和能效,在今年GTC大会推出了两款具备光互联的硅...
2025-08-04 0
发表评论