首页 抖音热门文章正文

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

抖音热门 2025年09月26日 17:52 2 aa

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+ 可落地的实践案例!

10 月 23 日 -10 月 25 日,QCon 全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!

小红书可观测团队负责人王亚普已确认出席并发表题为 重塑可观测边界:小红书在大模型时代的稳定性工程实践的主题分享。 AI 技术的爆发式增长对可观测性的挑战和新需求:如何保障 AI Infra 和 AI 应用的稳定性、性能和可靠性,可观测平台也从“服务业务”到“服务 AI ”再到“自身智能化”的演进趋势。AI 正在重塑可观测平台的能力边界:需要对 AI 基础设施、训练 / 推理有一定了解,才能提供真正有效的可观测能力;从传统的数据呈现 / 检索工具,变成具备洞察力和决策辅助能力的智能系统。本次分享将结合小红书在 AI 领域不同方向解决痛点问题的经验探索,详细分享其中一些重点技术的实践和落地,希望能给听众带来一些启发和思考,欢迎多多交流。

王亚普,小红书可观测团队负责人。目前就职于小红书基础技术部可观测技术组,主要负责小红书可观测技术体系建设,结合公司内部云原生架构现状,推动可观测技术在公司内大规模落地,面向业务提供一站式可观测平台,并深度应用于公司稳定性项目建设,提高故障发现、响应、定位效率,并在持续探索 AI 可观测的能力边界和技术突破。曾就职于美团、蚂蚁集团,专注于可观测技术领域,高性能组件发烧友。他在本次会议的详细演讲内容如下:

演讲提纲

  • 小红书可观测在 AI 时代面临的挑战

  • AI Infra 观测:稳定性体系建设

    • 训练任务的稳定性保障:训练 Hang 的发现与定位、训练效果观测

  • AI 应用观测:全链路监控的落地实践

  • 可观测 AI Agent 场景建设与落地

  • 未来规划

您认为,这样的技术在实践过程中有哪些痛点?

  • 环境异构挑战:内部训练框架多元、GPU 品牌参数与型号参差不齐,难以制定一套兼顾所有场景的通用解决方案

  • 在千卡甚至万卡集群训练时,任务 Hang 住所有 Pod 表现都是卡死,故障种类较多且故障定位的工作非常复杂

  • AI 应用的全链路追踪对于现有基建存在很多兼容性的挑战,需要考虑现状和业界发展趋势找到合适的落地路径

演讲亮点

  • GPU 故障诊断、训练 Hang 故障发现与定位可复制的工程经验

  • 可观测 AI Agent 产品化落地的思路,融合传统 AIOps 能力与大模型的落地实践

听众收益

  • 了解大规模训练过程中 Hang 的问题发现和自动化诊断

  • 了解业务 AI 应用端到端链路监控的建设思路

  • 了解 AI + 可观测的产品设计思路和技术架构

除此之外,本次大会还策划了多模态融合技术与创新应用、混沌工程与全链路压测实践、Data Infra for AI、Agentic AI、加速与反哺:AI 时代的可观测实践、Vibe Coding、端侧大模型的创新与应用、大模型推理的工程实践、AI 搜索技术的深水区、模型训练与微调、具身智能:当 AI 学会“动手思考”、大模型驱动的制造革命、AI4SE:软件研发提质增效实践、AI 重塑视觉创作体验、从“炫技”走向“实用”的 AI 产品、大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+ 资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠,单张门票立省 680 元,,详情可联系票务经理 18514549229 咨询。

重塑可观测边界:小红书在大模型时代的稳定性工程实践|QCon 上海

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap