景联文AI观察动态速递第2期

十大品牌 2025年10月11日 18:04 0 admin

一、生成式AI有多款新模型发布：

1. 谷歌DeepMind发布Gemini 2.5 Computer Use，类似OpenAI的CUA，可让AI控制浏览器操作，基准测试性能达SOTA，效率高，有多层安全机制，开发者可通过相关API获取能力。

2. 英特尔将于2026年1月发布18A工艺首款量产处理器Panther Lake，多核和图形性能提升超50%，功耗降30%，平台AI算力达180 TOPS。

3. Sand.ai团队推出国产音画同步模型GAGA - 1，专注人物表演达影视级别，支持多语言，全员免费无水印，未来价低于竞品。

4. vivo OriginOS 6集成蓝心大模型，新增功能，蓝心小V能力提升，重构安卓底层核心提升流畅度。

5. Figure公司发布Figure 03人形机器人，能感知回形针重量，搭载新系统与视觉系统，有量产规划。

6. 美图秀秀AI合照功能获奖，美图公司实践“反惯性工作流”，有“AI创新工作室”，发布新价值观。

7. 马斯克xAI推出视频生成模型Imagine v0.9并免费开放，相比初代有提升，生成时间短，支持语音优先界面，但文字理解有缺陷，不提示风险，不支持中文。

8. 蚂蚁集团发布并开源万亿参数大模型Ling - 1T，采用自研架构，推理时激活参数少，基准测试表现好，训练采用三阶段路径，支持线上体验。

9. 腾讯推出混元图像3.0并在元宝App上线，能一句话生成统一内容，新版本细节丰富、画质细腻，支持多种创作风格，后登顶LMArena文生图榜单，免费且性能强，腾讯构建全链路AI体系。

10. 以色列AI21 Labs开源轻量推理模型Jamba Reasoning 3B，可在手机端运行，性能对标竞品，效率高，成本低。

11. OpenAI发布AgentKit工具集；Codex正式版上线，新增集成和SDK；发布新模型接口，ChatGPT开放Apps SDK；还发布Sora2，上线三天登顶美榜，新功能出色，可能集成语言模型，有“互动式同人创作”计划。

12. Gemini 3.0 Pro内测显示编程实力强，基准测试表现优，谷歌预计下周发布。

13. Thinking Machines Lab发布产品Tinker用于大模型微调，使用LoRA技术降低成本。

14. Claude Sonnet 4.5编程评测领先，推出Agent SDK，有实验性功能将向用户开放。

15. 智谱GLM - 4.6代码能力提升，上下文窗口扩展，在编程测试中表现佳，实现国产芯片部署。

16. 谷歌Nano Banana开放API，新增功能，定价单图约0.28元。

17. DeepSeek-V3.2-Exp引入稀疏注意力机制提升长文本训练和推理效率，在两平台开源，公开论文及代码，API降价超50%，保留V3.1 - Terminus接口至10月15日。

18. 智源RoboBrain-X0是零样本跨本体泛化通用小脑基座，学习“做什么”拆解动作，真机评测成功率高。

19. 混元3D - Omni是业界首个统一多种条件控制的3D生成模型，解决单视图生成问题。

20. GPT - 5在量子复杂性理论研究瓶颈时半小时给出有效方案，但整体问题未最终解决。

二、前沿科技成果：

1. 2025年诺贝尔化学奖授予三位科学家，表彰其在金属有机框架（MOF）材料发展方面的贡献，材料能解决多种环境问题；诺贝尔物理学奖和生理学或医学奖揭晓，物理学奖表彰他们在量子力学领域的贡献，医学奖成果为自身免疫性疾病和癌症研究奠基。

2. 英伟达在机器人学习大会上开源Newton物理引擎、Isaac GR00T N1.6基础模型和Cosmos世界模型等多项技术，全面解决机器人研发中的仿真、推理和训练难题

3. 加州理工团队创造6100比特量子比特阵列，保持相干13秒，精度99.98%，奠定大型纠错量子计算机基础。

三、报告观点呈现：

1. Altman描述OpenAI愿景是构建“垂直整合AGI帝国”，Sora等产品推动社会与技术“协同进化”，但也同时面临版权、能源、监管等挑战。

2. 具身智能公司Figure获融资，目标规模化部署机器人，部署是“卡脖子”环节，家庭场景部署尚需时日，商业市场短期更有吸引力。

3. 谷歌资深工程主管发布《智能体设计模式》，总结21个AI Agent开发关键设计模式，免费在线阅读，强调实用性和可落地性。

4. 谷歌前CEO认为美国将赢得AGI竞赛，中国将主导人形机器人市场；美国AI面临电力瓶颈；创业成功关键在于快速行动和构建“学习”系统。

5. AlphaGo研究者驳斥AI停滞论，预测2026年是AI广泛融入经济关键年。

6. Flash Attention作者认为英伟达GPU统治2 - 3年内将终结，推理成本将再降，AI应用分化，代理型和实时视频生成是下一波杀手级应用。

四、2025年10月10日开源项目信息

1. 微软开源UserLM，专攻对话中用户角色模拟，推动真实交互技术落地。微软开发的UserLM - 8b模型，模拟对话中“用户”角色，通过预测用户发言实现真实对话模拟，对开发对话助手有用，可根据任务意图生成用户发言及结束标记。

2. Lumina - DiMOO全方位基础模型，专注多模态生成和理解，采用完全离散扩散建模，支持多种多模态任务，采样效率高，在多个基准测试中性能领先。

3. Salesforce AI Research开发的CoDA - v0 - Instruct是基于扩散的语言模型，用于代码生成和双向上下文理解，适合代码补全和生成任务，以轻量级形式发布。

4. Model Explorer ONNX是可视化ONNX模型的工具，图形化展示模型输入、输出和节点，支持在Windows上通过WSL运行，支持与PyTorch的ONNX导出器集成。

5. Code2Video是以代码为中心的框架，从知识点生成教育视频，利用可执行代码确保视频质量，模块化设计，推出首个代码驱动视频生成基准MMMC。

五、2025年10月9日开源项目信息：

1. 基座模型：

• Ling - 1T是Ling 2.0系列首个旗舰非思维模型，1万亿总参数，基于Ling 2.0架构。在超20万亿tokens预训练，支持128K上下文长度，采用进化链式思维提高效率和推理深度，在复杂推理基准有先进性能。

• HunyuanVision的Hunyuan - Vision - 1.5是mamba - transformer混合架构的视觉语言模型，有先进多语言多模态理解和推理能力，在图像、视频等任务表现出色。

2. 框架平台、必备工具：Being - VL - 0.5是多模态大模型，用视觉字节对编码（vBPE）结合文本和图像理解，创建更统一表示。

3. Agent开发：

• FireRedChat提供自托管方案构建实时语音AI agent，集成TTS、ASR等功能，可定制、注重隐私，不依赖外部API。

• DeepScientist推动科学前沿的AI系统，能在多领域超越人类现有技术水平，在AI文本检测和“Agent Failure Attribution”任务有进展。开源分多阶段。

• LIRA改善大规模多模态模型分割和理解能力的框架，通过SEFE和ILVC提高准确性、减少幻觉，引入AttrEval数据集。实验达先进性能。

六、OpenAI于2025年10月1日凌晨发布Sora 2及首款Sora iOS社交应用：

1. 技术突破：

• 物理智能：在物理模拟上有巨大突破，告别先前模型扭曲现实的“乐观”倾向，生成内容更符合自然法则。

• 多模态融合：首次实现音画同步，能生成复杂背景音景、语音和音效，提升视频真实感与沉浸感。

• 可控性与风格表现：可控性飞跃，能执行复杂指令，保持世界状态连续性，可生成长篇叙事视频，还能处理多种风格。

2. 创新功能：“客串”功能可让用户将自身形象与声音融入AI生成场景，颠覆传统社交互动方式。

3. 社交应用：Sora App以创作为核心，鼓励用户成为内容创造者，通过邀请制率先在美国和加拿大上线，未来将扩展。

4. 安全治理：部署多重安全与治理机制，设三层审核机制，保护肖像权，对青少年有严格管理，视频下载带水印并开发检测工具。

七、2025年9月30日，智谱发布GLM - 4.6：

1. 性能亮点：

• 国产最强代码模型，在多个权威基准中表现对齐Claude Sonnet 4，部分真实编程任务超越对手，代码能力较上一代跃升27%。

• 真实编程任务平均token消耗较上一代降低超30%，成本效益达同类顶尖。

• 上下文窗口长度从128K扩展至200K，可处理更复杂任务。

2. 生态融合：首次在寒武纪、摩尔线程等国产芯片上实现FP8 + Int4混合量化部署，打通“模型 + 芯片”链路，降低推理成本，展现国产GPU生态潜力。

3. 体验升级：

• GLM Coding Plan升级，订阅用户自动升级至GLM - 4.6，解锁图像识别与搜索能力，支持超10种编程工具。

• 推出企业版，为企业提供编码解决方案；模型即将在Hugging Face和ModelScope开源，遵循MIT协议。

八、2025年9月30日，Anthropic发布新一代旗舰Claude Sonnet 4.5：

1. 极限编码耐力：创下超30小时连续自主编码纪录，碾压GPT - 5 Codex，在SWE - bench评测达行业SOTA水平，能写约1.1万行代码构建聊天应用，在OSWorld基准测试成绩领先。

2. 智能体架构开放：发布Claude Agent SDK，开放构建复杂智能体核心基础设施；Claude Code有更新，API增添工具以处理高复杂度任务。

3. 全能进化：计算机综合操作、推理及数学能力飞跃，定价与上一代相同。

4. 安全对齐新高：是Anthropic对齐性最好的前沿模型，在ASL - 3安全等级下发布，抵御提示注入攻击有进展，减少不良行为。

5. 战略意图与未来展望：在OpenAI大会前发布，施压对手并赢回信任；发布“Imagine with Claude”实验性预览，预示人机协作终极形态，宣告AI向“自主协作者”进化加速。

九、2025年9月29日，DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp：

1. 首创DeepSeek稀疏注意力（DSA）机制，精准破解AI大模型处理长文本时的效率瓶颈，在几乎不影响模型输出效果的前提下，显著提升长文本训练与推理速度，新模型在公开评测基准上表现与前代版本基本持平。

2. 模型、论文、底层CUDA算子与高级语言TileLang版本同步向社区开放，降低了社区研究、调试和快速迭代的门槛。

3. 得益于DSA使服务成本大幅降低，官方API价格下调超50%，开发者调用成本直接减半，目前官方API默认切换至DeepSeek-V3.2-Exp版本。

4. 作为实验性版本，DeepSeek-V3.2-Exp需在更多真实场景检验，官方临时保留V3.1 - Terminus的API访问接口，并以V3.2 - Exp的最新低价提供，并行测试接口开放至2025年10月15日。

十、2025年9月30日开源关键要点：

1. 基座模型：

• DeepSeek-V3.2-Exp是DeepSeek - AI推出的实验性模型，引入稀疏注意力机制，优化长文本训练和推理效率，训练配置与V3.1 - Terminus一致，性能相当。

• MinerU2.5是1.2B参数的视觉语言模型，专注文档解析，采用两阶段解析策略，在多基准测试中表现优且计算开销低。

• Wan - Alpha是高质量文本生成视频项目，支持Alpha通道，能生成多样场景视频及半透明对象等。

• Ring - 1T - preview是inclusionAI开发的预览版语言模型，基于1万亿参数，提升自然语言推理能力，在数学竞赛和代码生成任务表现出色，但存在一些问题。

2. 框架平台、必备工具：unity - mcp是Unity的MCP服务器，让AI助手通过本地MCP客户端与Unity编辑器交互，提供多种操作工具。

3. Robotics开发：FSDrive提出时空协同推理方法，使自动驾驶车辆在端到端框架下进行视觉化轨迹规划，推动自动驾驶向视觉推理发展。

十一、2025年9月29日开源项目汇总：

1. 基座模型：

• SALMONN是字节跳动开发的多模态大语言模型家族，结合音视频提升理解和生成能力，能生成高质量音视频字幕，开放语音质量评估数据集和模型。

• HunyuanImage - 3.0是本地多模态模型，结合多模态理解和生成，文本到图像模块性能出色，是最大的开源图像生成专家混合（MoE）模型。

• Logics - Parsing是端到端文档解析模型，基于通用视觉语言模型构建，擅长分析和结构化复杂文档。

2. 框架平台、必备工具：

• ShinkaEvolve是结合大型语言模型和进化算法的框架，实现科学代码自动探索和改进，适合有验证器的科学任务。

• based - cpp提供GNU接口层和g++标准库实现，展示C++作为解释型语言的潜力。

3. Agent开发：Local_Pdf_Chat_RAG是面向RAG技术初学者的本地化智能问答系统，处理PDF文档实现精准问答，保障数据隐私。

十二、2025年9月28日开源内容：

1. 基座模型：

• TinyR1 - 32B由北京奇虎科技有限公司开发，引入控制信号实现训练数据模式动态切换，经20,000个高质量微调样本和三轮SFT训练，在推理、指令跟随和安全性方面超越Qwen3 - 32B，尤其在指令跟随和安全性上优于DeepSeek - R1 - 0528。

• KAT - Dev - 32B是开源32B参数模型，专为软件工程任务设计，在SWE - Bench验证中解决率达62.4%，排名第五，经多阶段优化。

2. 框架平台、必备工具：

• KNighter是创新检查器合成工具，利用LLMs从历史补丁提交自动生成静态分析检查器，基于LLVM构建，用于在大型C/C++代码库中发现错误。

• qa - use是基于AI的自动化QA测试平台，结合大语言模型驱动的智能代理与浏览器交互能力，经多轮调优和训练，在自动化测试准确性、易用性与稳定性方面优于传统脚本化方案。

3. Robotics开发：Hunyuan3D - Part是从图像生成3D部件项目，包含P3 - SAM（负责原生3D部件分割）和X - Part（生成完整部件），适用于处理扫描或AI生成的网格。

4. 复刻方案：DKP++关于非样本终身人员重识别研究，提出分布感知的知识对齐和原型设计方法，解决因数据分布变化和缺乏样本导致的模型性能下降问题。

十三、2025年9月26日开源项目：

1. 基座模型：LIMI项目提出“agent效率原则”，改变自主AI系统开发方式，为行业从“思考型AI”向“工作型AI”过渡提供可持续范式。

2. 框架平台、必备工具：

• GeoReasoning项目生成高质量图像 - 描述对，提升AI系统多模态推理能力，在多领域表现出色，基于50个基本关系可扩展复杂几何问题。

• SimpleVLA - RL是高效强化学习框架，为VLA模型设计，在数据稀缺时提升长远规划能力，优于监督微调，揭示新动作现象，增强泛化能力。

• ViSpec是视觉语言模型加速框架，通过视觉感知推测解码技术提高推理速度，克服多模态数据集稀缺问题，实现显著加速。

3. Agent开发：OpenLens AI是医疗领域全自动研究agent，用户提供数据集和想法，可独立完成研究流程并生成报告。

4. 复刻方案：TC - Light是操控视频光照分布的一次性模型，适用于高动态视频，有出色时间一致性和计算效率，在相关增强及训练视频重光照模型方面有价值。

十四、云栖大会上通义系列模型密集发布：

1. Qwen MAX：万亿参数旗舰模型，智能水平跨越式提升，代码与工具调用能力刷新国际榜单，数学推理评测获满分。

2. Qwen3 - Omni：原生全模态大模型，解决多模态与文本智力平衡难题，支持多语言输入，可精准处理长会议录音，能嵌入多系统执行复杂指令。

3. Qwen3- VL：重新定义视觉理解边界，支持长上下文分析视频，具备视觉智能体能力，为具身智能等前沿场景铺路。

4. Qwen - Image：工业级图像编辑专家，升级聚焦一致性与可控性，支持多图参考编辑，集成ControlNet。

5. Qwen3 - Coder：通过联合训练能力跃迁，支持超长上下文，可理解并修复整个项目级代码库。

6. Wan2.5 - Preview：视频生成原生支持音画同步，文生图强化文字和图表渲染，兼具美学与实用性。

7. 通义百聆：企业级语音基座大模型，解决语音技术落地难题，降低“幻觉输出”率，解决“串语种”问题，具备多种实用能力。

十五、RL×LLM技术综述分享：

1. 传统RLHF解决“对齐”问题，让模型更礼貌、安全；2024年起，RL with Verifiable Rewards（RLVR）出现，用可自动判对的奖励代替昂贵人类偏好，使模型在数学、代码等方面表现提升，推理长度和Pass@1增加，“大推理模型（LRM）”概念出圈。

2. 第一篇论文梳理RL在LLM全生命周期玩法，包括预训练、对齐、推理增强阶段；不同阶段有不同关键算法，推理增强阶段以RLVR + 多模态 + Agent为重点；RLVR核心是用“自动判卷”式奖励替代人工偏好，直接优化推理正确率，介绍了GRPO、DAPO、Tree系列、GSPO等算法演进路线。

3. 第二篇论文聚焦LRM，系统拆解RL让LLM长出“长思维链”的奖励设计、策略优化、采样策略、训练资源与落地应用，给出超全盘点；展示奖励设计、策略优化、采样策略等方向的代表性工作；奖励设计分为规则奖励、生成奖励、密集奖励、无监督奖励、奖励塑形5象限；策略优化采用GRPO、DAPO、GSPO等“去Critic”方法；采样策略包括在线难度过滤、树rollout、长度课程等技巧；给出用于LLM RL训练的静态数据集和面向LLM后训练的开源RL基础设施。

4. 论文链接：

• A Survey of Reinforcement Learning for Large Reasoning Models

• Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle

十六、关于AI智能体的观点：

1. 有观点认为2025年AI智能体注定失败，CMU研究显示顶尖模型驱动的智能体在真实任务完成率仅24%，长对话Token成本暴增百倍，70%实用价值依赖工具链。

2. 不必因这些不完美唱衰，智能体解决了传统生成式AI“只会说不会做”短板，能自主规划任务、调用工具。

3. 行业在快速破局，如同济大学的AgentPrune框架降低多智能体通信成本，浪潮信息的AI服务器缩短Token生成延迟，这些是研究切入点。

4. 目前智能体是“超级辅助”，人机协作特性为论文提供贴近实际场景的研究方向。

5. 应抓住技术迭代红利，在学术领域用智能体做研究、发顶会正当时。

6. 推荐《AI智能体实战》，结合案例拆解工具，对掌握技能和论文发表都实用。

十七、AccurateRAG相关：

1. 是Qualcomm团队提出的端到端工程方案，可解决RAG落地难题，在多个数据集上刷新SOTA。