IT之家 10 月 20 日消息,美团 LongCat 团队今日正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准 ——VitaBe...
2025-10-20 0
IT之家 10 月 20 日消息,美团 LongCat 团队今日正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准 ——VitaBench。
IT之家从官方介绍获悉,VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。
该团队首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。团队发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。
随着大语言模型在复杂推理与工具调用能力上的快速进步,基于 LLM 的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在:工具生态简单化、信息密度不足、模型探索性受限、交互动态性缺失。
通过对美团生活服务场景的深入分析,LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织 ——
为系统衡量这三重挑战下的模型表现,团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。VitaBench 的评测榜单未来将长期维护更新,现已全面开源:
项目主页:https://vitabench.github.io
论文链接:https://arxiv.org/ abs / 2509.26490
代码仓库:https://github.com/ meituan-longcat / vitabench
数据集:https://huggingface.co/ datasets / meituan-longcat / VitaBench
排行榜:https://vitabench.github.io/#Leaderboard
相关文章
IT之家 10 月 20 日消息,美团 LongCat 团队今日正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准 ——VitaBe...
2025-10-20 0
在OpenAI于2022年发布ChatGPT并引起公众广泛关注之前,人工智能一直在研究实验室中悄然发展,并在科学会议上被讨论。虽然企业界目前的注意力主...
2025-10-20 0
提起iQOO旗下的Neo系列机型,“性能小钢炮”应该是许多朋友的第一印象,此前该系列也凭借着高性价比的特性受到了众多消费者的青睐。即将亮相、被称为“史...
2025-10-20 0
根据科技媒体kepritoday消息,小米全新操作系统HyperOS 3已于2025年10月正式启动推送,更新将持续至11月,目前正覆盖小米、Redm...
2025-10-20 0
【CNMO科技消息】不久前,真我手机对外宣布:品牌成立7周年之际,其全球手机销量成功突破3亿大关。为庆祝这一里程碑时刻,真我准备推出全新的旗舰机型——...
2025-10-20 0
本报讯 (记者徐一鸣)近日,视觉(中国)文化发展股份有限公司(以下简称“视觉中国”)与北京凌川科技有限公司(以下简称“凌川科技”)签署投资框架协议并达...
2025-10-20 0
谷歌Deepmind将与创业公司联邦聚变系统合作,利用其AI专业知识帮助开发聚变能源技术,两家公司周四宣布了这一消息。这一研究合作伙伴关系建立在谷歌对...
2025-10-20 0
【美国人工智能研究实验室nof1.ai举办大语言模型实盘交易竞赛】上周六,美国人工智能研究实验室nof1.ai在其“Arena”平台举办活动,给Ant...
2025-10-20 0
发表评论