10月13日晚,备受瞩目的「vivo X300系列」如期而至,共带来X300与X300 Pro两款旗舰新机,瞬间引发了极高的热度。作为X200系列的升...
2025-10-15 0
原文 | What Makes 5% of AI Agents Actually Work in Production?
编译 | 段小草 + Gemini 2.5 Pro
超越提示词:来自上下文工程前沿的笔记
大多数创始人认为他们在构建 AI 产品,但实际上,他们在构建的是上下文选择系统。
本周一,我在旧金山主持了一场小组讨论,参与者包括来自 Uber、WisdomAI、EvenUp 和 Datastrato 的工程师和机器学习 (ML) 负责人。这场名为 Beyond the Prompt 的活动吸引了超过 600 名注册者,其中大部分是创始人、工程师和早期的 AI 产品构建者。
我们并非为了老调重弹提示词工程 (prompt engineering) 的技巧。
我们探讨了上下文工程 (context engineering)、推理堆栈 (inference stack) 设计,以及在企业环境中扩展智能体系统 (agentic systems) 所需的条件。如果说「prompting」(提示) 只是冰山一角,那么这次小组讨论则深入到了水面之下那块冰冷而复杂的巨大冰体:上下文选择、语义层、记忆编排、治理和多模型路由。
现实情况是: 一位嘉宾提到,95% 的 AI 智能体部署在生产环境中都以失败告终。这并非因为模型不够智能,而是因为围绕模型的支架——上下文工程、安全性、记忆设计——尚未到位。
当晚的一个比喻让我印象深刻:
「基础模型是土壤;上下文是种子。」
一段时间以来,我一直着迷于语义层 (semantic layers),并非因为它们光鲜亮丽,而是因为创始人正是在这里,悄悄地为大语言模型系统构建信任、实用性和差异化。我见过太多团队将 prompting 与产品混为一谈。这次小组讨论让我感觉到,真正的工程工作开始得到应有的重视。
以下是本次讨论的要点,不仅仅是引述,更是一些我在严肃的 AI 团队中反复看到的模式。如果你正在基础设施 (infra)、工具或垂直 AI 领域进行构建,这些框架正是你需要把握的核心要素。
几位嘉宾都表达了同样的见解:微调 (fine-tuning) 很少是必要的。检索增强生成 (Retrieval-augmented generation, RAG) 如果做得好,就已经足够了。但目前大多数 RAG 系统都过于简单。
失败模式:
那么,先进的上下文工程究竟是什么样的呢?
一位演讲者将上下文工程重新定义为面向 LLM 的原生特征工程 (feature engineering):
这种框架很重要。这意味着你可以将上下文视为一个可版本化、可审计、可测试的工件 (artifact),而不是一个字符串数据块 (string blob)。
一些团队描述了双层架构:
这种混合层有助于在混乱的输入格式 (PDF、音频、日志、指标) 之间进行规范化,并确保你不仅仅是在检索「相似内容」,而是在检索相关的结构化知识。可以将其理解为:在嵌入之上构建分类法、实体链接和领域特定的模式。
当主持人向观众提问「你们中有多少人构建过 text-to-SQL 并将其投入生产环境?」时,没有一个人举手。
这并非因为问题本身小众,而是因为查询理解极其困难。自然语言是模糊的,商业术语是领域特定的。如果没有广泛的上下文工程,大语言模型根本不知道你公司对「收入」或「活跃用户」的定义。
成功的团队并不仅仅是将 SQL schemas 扔给模型。他们会构建:
能够随时间推移改善理解能力的反馈循环。
安全性、数据溯源和权限管理被反复提及,它们不是可勾选的待办事项,而是部署的阻碍。
一位演讲者说:
「如果两个员工问同一个问题,模型的输出应该是不同的,因为他们有不同的权限。」
没有这些控制,你的智能体在功能上可能是正确的,但在组织层面却是错误的,可能会泄露访问权限或违反合规性。
这里的主要模式是:为结构化和非结构化数据建立统一的元数据目录,并在索引和查询时嵌入访问策略。
一位嘉宾分享了一个个人故事生动诠释了这一挑战:他的妻子不让他使用特斯拉的自动驾驶功能。为什么?不是因为它不能用,而是因为她不信任它。
「当 AI 触及到关于你的安全、你的金钱等非常敏感的领域时,你信任 AI 吗?我认为这是一个巨大的障碍。我们有时会使用 AI 智能体,但最终还是人会去思考:我真的信任这个 AI 吗?」
这不仅仅是消费产品的问题。对于企业级 AI 智能体在收入确认、医疗记录或合规报告等方面做决策时,也存在同样的障碍。信任并非关乎原始能力,而是关乎一致、可解释、可审计的行为。
那 5% 成功的 AI 智能体呢?它们都有一个共同点:人在回路 (human-in-the-loop) 的设计。它们将 AI 定位为助手,而不是自主决策者。它们创建了反馈循环,让系统从修正中学习。它们让人类可以轻松地验证和否决。
人人都想「增加记忆」。但记忆不是一个功能,它是一个涉及用户体验 (UX)、隐私和系统影响的设计决策。
大多数初创公司将记忆硬编码到应用逻辑或本地存储中。但最优秀的团队会将其抽象为一个上下文层 + 行为层,使其可版本化和可组合。一位演讲者这样描述:
语义记忆 + 分类法 + 操作手册 = 上下文。 个人偏好 = 记忆
在应用层面,记忆有两个目的:
一个团队描述了在 Uber 构建对话式商业智能 (BI) 工具的经历。冷启动问题是什么?用户不知道该问什么。解决方案?从他们过去的的查询日志中构建记忆,然后建议相关问题作为对话的开场白,就像记得你上次聊了什么一样。
但这里的矛盾在于:贴心的个性化何时会越界变成令人毛骨悚然的监视?
一位嘉宾描述了他向 ChatGPT 询问家庭电影推荐的经历,结果 ChatGPT 的回应是根据他孩子的名字 Claire 和 Brandon 量身定制的建议。他的反应是?「我不喜欢这个答案。你为什么对我的儿子和女儿了解这么多?不要触碰我的隐私。」
这里缺少一个基础构件:一个安全的、可移植的记忆层,可以跨应用工作,由用户使用,而不是被锁定在提供商内部。还没有人实现这一点。一位嘉宾说,如果他现在没有在做目前的创业项目,这将会是他的下一个。
另一个新兴的设计是:模型编排。
在生产环境中,你不会事事都调用 GPT-4。团队越来越倾向于基于以下因素来运行模型路由逻辑:
这更接近于编译器设计,而非 Web 应用路由。你不仅仅是「发送给 LLM」,而是在一个由异构模型、工具和验证组成的有向无环图 (DAG) 中运行决策。
如果你的系统随着使用量增长而变慢或变贵,这便是第一个需要重新审视的层面。如果你想让 AI 对用户来说感觉无缝,路由就不能是脆弱的或永远靠手动调整的。你需要自适应策略。
一个团队描述了他们的方法:简单问题交给小而快的模型,复杂的推理任务则路由到前沿模型。关键见解是什么?模型选择本身可以通过追踪哪些查询在哪种模型上成功来逐步学习。
并非每个任务都需要聊天机器人。
一位观众直接对前提提出了质疑:「我不确定自然语言是否总是优于图形用户界面 (GUI)。如果我要叫一辆 Uber,我不想对着手机说话。我只需要点、点、点,车就来了。」
小组的共识是:当对话能够消除学习曲线时,它才有效。
对于像商业智能 (BI) 仪表板或数据分析这类传统上需要专业知识的复杂工具,自然语言降低了入门门槛。但一旦得到答案,用户通常希望使用 GUI 控件,将饼图切换为条形图不应需要更多输入。
一位嘉宾描述了自然语言处理 (NLP) 的两个完美用例:
关键见解是:我们应该理解为什么想使用自然语言,并为这种意图进行设计,而不是强迫每一次交互都通过聊天完成。
讨论中出现了几个感觉尚未被充分探索的想法,它们是等待被产品化的真正基础构件:
哪些输入能持续改善输出?哪类上下文会导致幻觉?你如何像测试模型提示词一样测试上下文?
目前,大多数团队都在盲目飞行,他们没有系统的方法来衡量哪些上下文对模型性能有帮助,哪些有损害。
记忆能否存在于用户端(而非应用端),可移植且安全,并带有可选择加入的组织、团队、个人状态层?
这解决了两个问题:
这是技术栈中缺失的最大的基础构件。
商业用户想要的大部分东西都是结构化和重复性的。为什么我们还在尝试将自然语言解析成脆弱的 SQL,而不是定义更高级别、约束安全的领域特定语言 (DSL)?
一个团队建议,我们不应该做 text-to-SQL,而应该构建语义化的业务逻辑层,「显示第四季度收入」应该映射到一个经过验证的计算,而不是原始的 SQL 生成。
一位嘉宾描述了一个记忆增强的聊天机器人,它响应缓慢,但却令人愉悦。为什么?因为它根据用户上周问过的内容,展示了一系列智能的后续跟进。
这里为异步、主动的 AI(而不仅仅是聊天)提供了一个用户体验 (UX) 的突破口。想象一下:在你开会前准备简报、在你打开文档时浮现相关上下文、或在你提问前就提醒你数据异常的智能体。
关键见解是:不同的任务有不同的延迟要求。一个笑话应该是即时的。而深度分析如果能显示进度并让人感觉智能,那么花 10 秒钟也是可以接受的。
离开这次小组讨论后,我更加坚信,我们即将看到一波基础设施工具、记忆套件、编排层、上下文可观测性的浪潮,这些在事后看来会是显而易见的。但今天,它们仍是一片混乱,尚未解决。
生成式 AI (GenAI) 的下一个真正的护城河不会来自模型访问权限,而是来自:
如果你是一位正在构建基础设施、应用或智能体的创始人:你的路线图中有多少明确地解决了这四个问题?
作为上下文/智能体系统的构建者,请尝试回答这些问题:
1. 我的应用的上下文预算是多少? (理想的上下文窗口大小是多少,我该如何优化进入其中的内容?)
2. 我的记忆边界在哪里? (哪些内容属于用户级别 vs 团队级别 vs 组织级别?它存储在哪里,用户能看到吗?)
3. 我能追踪输出的数据来源吗? (我能否调试一个 LLM 的响应,并知道是哪个输入导致的?)
4. 我使用一个模型还是多个模型? (我如何根据复杂性、延迟或成本来路由请求?)
5. 我的用户会信任这个系统处理金钱或医疗数据吗? (如果不会,我的安全性或反馈循环中缺少了什么?)
如果你正在这个层面进行构建,我希望听到你的声音。特别是如果你在所有人都称之为基础设施之前就已经在做了。
如果你是一位技术读者,尤其是在基础设施或 AI/ML 领域的,请告诉我:你是否想要一个更深入的系列,探讨上下文修剪模式、构建双层上下文系统、记忆抽象或设计治理?
或者,你也可以直接回复你目前在「上下文工程」方面最头疼的问题,我很乐意深入探讨。
相关文章
10月13日晚,备受瞩目的「vivo X300系列」如期而至,共带来X300与X300 Pro两款旗舰新机,瞬间引发了极高的热度。作为X200系列的升...
2025-10-15 0
原文 | What Makes 5% of AI Agents Actually Work in Production?编译 | 段小草 + Gemi...
2025-10-15 0
10月13日,国内AI办公硬件领军企业“未来智能”宣布完成亿元级A轮融资,由蚂蚁集团领投,启明创投跟投。值得一提的是,这已经是未来智能今年内完成的第三...
2025-10-15 0
🤖 由 文心大模型 生成的文章摘要三星电子将举办Galaxy系列新三星电子于近日正式对外公布,将举办主题为 “世界尽在眼前”的Galaxy系列新品发布...
2025-10-15 0
年过六十的李国庆,在商界沉浮数十年后,本以为会逐渐淡出公众视野,却因一场再婚风波再次成为焦点。2025 年 8 月,他与大学时期的 “白月光” 张丹红...
2025-10-15 0
各位机友注意了!关于荣耀下半年的旗舰扛把子——荣耀Magic8 Pro,各种靠谱的爆料信息已经堆成小山了。结合近期数码博主们的深度挖掘和供应链消息(最...
2025-10-15 9
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-10-15 13
发表评论