首页 十大品牌文章正文

景联文AI观察动态速递 第2期

十大品牌 2025年10月11日 18:04 0 admin


景联文AI观察动态速递 第2期

一、生成式AI有多款新模型发布:

1. 谷歌DeepMind发布Gemini 2.5 Computer Use,类似OpenAI的CUA,可让AI控制浏览器操作,基准测试性能达SOTA,效率高,有多层安全机制,开发者可通过相关API获取能力。

2. 英特尔将于2026年1月发布18A工艺首款量产处理器Panther Lake,多核和图形性能提升超50%,功耗降30%,平台AI算力达180 TOPS。

3. Sand.ai团队推出国产音画同步模型GAGA - 1,专注人物表演达影视级别,支持多语言,全员免费无水印,未来价低于竞品。

4. vivo OriginOS 6集成蓝心大模型,新增功能,蓝心小V能力提升,重构安卓底层核心提升流畅度。

5. Figure公司发布Figure 03人形机器人,能感知回形针重量,搭载新系统与视觉系统,有量产规划。

6. 美图秀秀AI合照功能获奖,美图公司实践“反惯性工作流”,有“AI创新工作室”,发布新价值观。

7. 马斯克xAI推出视频生成模型Imagine v0.9并免费开放,相比初代有提升,生成时间短,支持语音优先界面,但文字理解有缺陷,不提示风险,不支持中文。

8. 蚂蚁集团发布并开源万亿参数大模型Ling - 1T,采用自研架构,推理时激活参数少,基准测试表现好,训练采用三阶段路径,支持线上体验。

9. 腾讯推出混元图像3.0并在元宝App上线,能一句话生成统一内容,新版本细节丰富、画质细腻,支持多种创作风格,后登顶LMArena文生图榜单,免费且性能强,腾讯构建全链路AI体系。

10. 以色列AI21 Labs开源轻量推理模型Jamba Reasoning 3B,可在手机端运行,性能对标竞品,效率高,成本低。

11. OpenAI发布AgentKit工具集;Codex正式版上线,新增集成和SDK;发布新模型接口,ChatGPT开放Apps SDK;还发布Sora2,上线三天登顶美榜,新功能出色,可能集成语言模型,有“互动式同人创作”计划。

12. Gemini 3.0 Pro内测显示编程实力强,基准测试表现优,谷歌预计下周发布。

13. Thinking Machines Lab发布产品Tinker用于大模型微调,使用LoRA技术降低成本。

14. Claude Sonnet 4.5编程评测领先,推出Agent SDK,有实验性功能将向用户开放。

15. 智谱GLM - 4.6代码能力提升,上下文窗口扩展,在编程测试中表现佳,实现国产芯片部署。

16. 谷歌Nano Banana开放API,新增功能,定价单图约0.28元。

17. DeepSeek-V3.2-Exp引入稀疏注意力机制提升长文本训练和推理效率,在两平台开源,公开论文及代码,API降价超50%,保留V3.1 - Terminus接口至10月15日。

18. 智源RoboBrain-X0是零样本跨本体泛化通用小脑基座,学习“做什么”拆解动作,真机评测成功率高。

19. 混元3D - Omni是业界首个统一多种条件控制的3D生成模型,解决单视图生成问题。

20. GPT - 5在量子复杂性理论研究瓶颈时半小时给出有效方案,但整体问题未最终解决。

二、前沿科技成果:

1. 2025年诺贝尔化学奖授予三位科学家,表彰其在金属有机框架(MOF)材料发展方面的贡献,材料能解决多种环境问题;诺贝尔物理学奖和生理学或医学奖揭晓,物理学奖表彰他们在量子力学领域的贡献,医学奖成果为自身免疫性疾病和癌症研究奠基。

2. 英伟达在机器人学习大会上开源Newton物理引擎、Isaac GR00T N1.6基础模型和Cosmos世界模型等多项技术,全面解决机器人研发中的仿真、推理和训练难题

3. 加州理工团队创造6100比特量子比特阵列,保持相干13秒,精度99.98%,奠定大型纠错量子计算机基础。

三、报告观点呈现:

1. Altman描述OpenAI愿景是构建“垂直整合AGI帝国”,Sora等产品推动社会与技术“协同进化”,但也同时面临版权、能源、监管等挑战。

2. 具身智能公司Figure获融资,目标规模化部署机器人,部署是“卡脖子”环节,家庭场景部署尚需时日,商业市场短期更有吸引力。

3. 谷歌资深工程主管发布《智能体设计模式》,总结21个AI Agent开发关键设计模式,免费在线阅读,强调实用性和可落地性。

4. 谷歌前CEO认为美国将赢得AGI竞赛,中国将主导人形机器人市场;美国AI面临电力瓶颈;创业成功关键在于快速行动和构建“学习”系统。

5. AlphaGo研究者驳斥AI停滞论,预测2026年是AI广泛融入经济关键年。

6. Flash Attention作者认为英伟达GPU统治2 - 3年内将终结,推理成本将再降,AI应用分化,代理型和实时视频生成是下一波杀手级应用。

四、2025年10月10日开源项目信息

1. 微软开源UserLM,专攻对话中用户角色模拟,推动真实交互技术落地。微软开发的UserLM - 8b模型,模拟对话中“用户”角色,通过预测用户发言实现真实对话模拟,对开发对话助手有用,可根据任务意图生成用户发言及结束标记。

2. Lumina - DiMOO全方位基础模型,专注多模态生成和理解,采用完全离散扩散建模,支持多种多模态任务,采样效率高,在多个基准测试中性能领先。

3. Salesforce AI Research开发的CoDA - v0 - Instruct是基于扩散的语言模型,用于代码生成和双向上下文理解,适合代码补全和生成任务,以轻量级形式发布。

4. Model Explorer ONNX是可视化ONNX模型的工具,图形化展示模型输入、输出和节点,支持在Windows上通过WSL运行,支持与PyTorch的ONNX导出器集成。

5. Code2Video是以代码为中心的框架,从知识点生成教育视频,利用可执行代码确保视频质量,模块化设计,推出首个代码驱动视频生成基准MMMC。

五、2025年10月9日开源项目信息:

1. 基座模型:

• Ling - 1T是Ling 2.0系列首个旗舰非思维模型,1万亿总参数,基于Ling 2.0架构。在超20万亿tokens预训练,支持128K上下文长度,采用进化链式思维提高效率和推理深度,在复杂推理基准有先进性能。

• HunyuanVision的Hunyuan - Vision - 1.5是mamba - transformer混合架构的视觉语言模型,有先进多语言多模态理解和推理能力,在图像、视频等任务表现出色。

2. 框架平台、必备工具:Being - VL - 0.5是多模态大模型,用视觉字节对编码(vBPE)结合文本和图像理解,创建更统一表示。

3. Agent开发:

• FireRedChat提供自托管方案构建实时语音AI agent,集成TTS、ASR等功能,可定制、注重隐私,不依赖外部API。

• DeepScientist推动科学前沿的AI系统,能在多领域超越人类现有技术水平,在AI文本检测和“Agent Failure Attribution”任务有进展。开源分多阶段。

• LIRA改善大规模多模态模型分割和理解能力的框架,通过SEFE和ILVC提高准确性、减少幻觉,引入AttrEval数据集。实验达先进性能。

六、OpenAI于2025年10月1日凌晨发布Sora 2及首款Sora iOS社交应用:

1. 技术突破:

• 物理智能:在物理模拟上有巨大突破,告别先前模型扭曲现实的“乐观”倾向,生成内容更符合自然法则。

• 多模态融合:首次实现音画同步,能生成复杂背景音景、语音和音效,提升视频真实感与沉浸感。

• 可控性与风格表现:可控性飞跃,能执行复杂指令,保持世界状态连续性,可生成长篇叙事视频,还能处理多种风格。

2. 创新功能:“客串”功能可让用户将自身形象与声音融入AI生成场景,颠覆传统社交互动方式。

3. 社交应用:Sora App以创作为核心,鼓励用户成为内容创造者,通过邀请制率先在美国和加拿大上线,未来将扩展。

4. 安全治理:部署多重安全与治理机制,设三层审核机制,保护肖像权,对青少年有严格管理,视频下载带水印并开发检测工具。

七、2025年9月30日,智谱发布GLM - 4.6:

1. 性能亮点:

• 国产最强代码模型,在多个权威基准中表现对齐Claude Sonnet 4,部分真实编程任务超越对手,代码能力较上一代跃升27%。

• 真实编程任务平均token消耗较上一代降低超30%,成本效益达同类顶尖。

• 上下文窗口长度从128K扩展至200K,可处理更复杂任务。

2. 生态融合:首次在寒武纪、摩尔线程等国产芯片上实现FP8 + Int4混合量化部署,打通“模型 + 芯片”链路,降低推理成本,展现国产GPU生态潜力。

3. 体验升级:

• GLM Coding Plan升级,订阅用户自动升级至GLM - 4.6,解锁图像识别与搜索能力,支持超10种编程工具。

• 推出企业版,为企业提供编码解决方案;模型即将在Hugging Face和ModelScope开源,遵循MIT协议。

八、2025年9月30日,Anthropic发布新一代旗舰Claude Sonnet 4.5:

1. 极限编码耐力:创下超30小时连续自主编码纪录,碾压GPT - 5 Codex,在SWE - bench评测达行业SOTA水平,能写约1.1万行代码构建聊天应用,在OSWorld基准测试成绩领先。

2. 智能体架构开放:发布Claude Agent SDK,开放构建复杂智能体核心基础设施;Claude Code有更新,API增添工具以处理高复杂度任务。

3. 全能进化:计算机综合操作、推理及数学能力飞跃,定价与上一代相同。

4. 安全对齐新高:是Anthropic对齐性最好的前沿模型,在ASL - 3安全等级下发布,抵御提示注入攻击有进展,减少不良行为。

5. 战略意图与未来展望:在OpenAI大会前发布,施压对手并赢回信任;发布“Imagine with Claude”实验性预览,预示人机协作终极形态,宣告AI向“自主协作者”进化加速。

九、2025年9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp:

1. 首创DeepSeek稀疏注意力(DSA)机制,精准破解AI大模型处理长文本时的效率瓶颈,在几乎不影响模型输出效果的前提下,显著提升长文本训练与推理速度,新模型在公开评测基准上表现与前代版本基本持平。

2. 模型、论文、底层CUDA算子与高级语言TileLang版本同步向社区开放,降低了社区研究、调试和快速迭代的门槛。

3. 得益于DSA使服务成本大幅降低,官方API价格下调超50%,开发者调用成本直接减半,目前官方API默认切换至DeepSeek-V3.2-Exp版本。

4. 作为实验性版本,DeepSeek-V3.2-Exp需在更多真实场景检验,官方临时保留V3.1 - Terminus的API访问接口,并以V3.2 - Exp的最新低价提供,并行测试接口开放至2025年10月15日。

十、2025年9月30日开源关键要点:

1. 基座模型:

• DeepSeek-V3.2-Exp是DeepSeek - AI推出的实验性模型,引入稀疏注意力机制,优化长文本训练和推理效率,训练配置与V3.1 - Terminus一致,性能相当。

• MinerU2.5是1.2B参数的视觉语言模型,专注文档解析,采用两阶段解析策略,在多基准测试中表现优且计算开销低。

• Wan - Alpha是高质量文本生成视频项目,支持Alpha通道,能生成多样场景视频及半透明对象等。

• Ring - 1T - preview是inclusionAI开发的预览版语言模型,基于1万亿参数,提升自然语言推理能力,在数学竞赛和代码生成任务表现出色,但存在一些问题。

2. 框架平台、必备工具:unity - mcp是Unity的MCP服务器,让AI助手通过本地MCP客户端与Unity编辑器交互,提供多种操作工具。

3. Robotics开发:FSDrive提出时空协同推理方法,使自动驾驶车辆在端到端框架下进行视觉化轨迹规划,推动自动驾驶向视觉推理发展。

十一、2025年9月29日开源项目汇总:

1. 基座模型:

• SALMONN是字节跳动开发的多模态大语言模型家族,结合音视频提升理解和生成能力,能生成高质量音视频字幕,开放语音质量评估数据集和模型。

• HunyuanImage - 3.0是本地多模态模型,结合多模态理解和生成,文本到图像模块性能出色,是最大的开源图像生成专家混合(MoE)模型。

• Logics - Parsing是端到端文档解析模型,基于通用视觉语言模型构建,擅长分析和结构化复杂文档。

2. 框架平台、必备工具:

• ShinkaEvolve是结合大型语言模型和进化算法的框架,实现科学代码自动探索和改进,适合有验证器的科学任务。

• based - cpp提供GNU接口层和g++标准库实现,展示C++作为解释型语言的潜力。

3. Agent开发:Local_Pdf_Chat_RAG是面向RAG技术初学者的本地化智能问答系统,处理PDF文档实现精准问答,保障数据隐私。

十二、2025年9月28日开源内容:

1. 基座模型:

• TinyR1 - 32B由北京奇虎科技有限公司开发,引入控制信号实现训练数据模式动态切换,经20,000个高质量微调样本和三轮SFT训练,在推理、指令跟随和安全性方面超越Qwen3 - 32B,尤其在指令跟随和安全性上优于DeepSeek - R1 - 0528。

• KAT - Dev - 32B是开源32B参数模型,专为软件工程任务设计,在SWE - Bench验证中解决率达62.4%,排名第五,经多阶段优化。

2. 框架平台、必备工具:

• KNighter是创新检查器合成工具,利用LLMs从历史补丁提交自动生成静态分析检查器,基于LLVM构建,用于在大型C/C++代码库中发现错误。

• qa - use是基于AI的自动化QA测试平台,结合大语言模型驱动的智能代理与浏览器交互能力,经多轮调优和训练,在自动化测试准确性、易用性与稳定性方面优于传统脚本化方案。

3. Robotics开发:Hunyuan3D - Part是从图像生成3D部件项目,包含P3 - SAM(负责原生3D部件分割)和X - Part(生成完整部件),适用于处理扫描或AI生成的网格。

4. 复刻方案:DKP++关于非样本终身人员重识别研究,提出分布感知的知识对齐和原型设计方法,解决因数据分布变化和缺乏样本导致的模型性能下降问题。

十三、2025年9月26日开源项目:

1. 基座模型:LIMI项目提出“agent效率原则”,改变自主AI系统开发方式,为行业从“思考型AI”向“工作型AI”过渡提供可持续范式。

2. 框架平台、必备工具:

• GeoReasoning项目生成高质量图像 - 描述对,提升AI系统多模态推理能力,在多领域表现出色,基于50个基本关系可扩展复杂几何问题。

• SimpleVLA - RL是高效强化学习框架,为VLA模型设计,在数据稀缺时提升长远规划能力,优于监督微调,揭示新动作现象,增强泛化能力。

• ViSpec是视觉语言模型加速框架,通过视觉感知推测解码技术提高推理速度,克服多模态数据集稀缺问题,实现显著加速。

3. Agent开发:OpenLens AI是医疗领域全自动研究agent,用户提供数据集和想法,可独立完成研究流程并生成报告。

4. 复刻方案:TC - Light是操控视频光照分布的一次性模型,适用于高动态视频,有出色时间一致性和计算效率,在相关增强及训练视频重光照模型方面有价值。

十四、云栖大会上通义系列模型密集发布:

1. Qwen MAX:万亿参数旗舰模型,智能水平跨越式提升,代码与工具调用能力刷新国际榜单,数学推理评测获满分。

2. Qwen3 - Omni:原生全模态大模型,解决多模态与文本智力平衡难题,支持多语言输入,可精准处理长会议录音,能嵌入多系统执行复杂指令。

3. Qwen3- VL:重新定义视觉理解边界,支持长上下文分析视频,具备视觉智能体能力,为具身智能等前沿场景铺路。

4. Qwen - Image:工业级图像编辑专家,升级聚焦一致性与可控性,支持多图参考编辑,集成ControlNet。

5. Qwen3 - Coder:通过联合训练能力跃迁,支持超长上下文,可理解并修复整个项目级代码库。

6. Wan2.5 - Preview:视频生成原生支持音画同步,文生图强化文字和图表渲染,兼具美学与实用性。

7. 通义百聆:企业级语音基座大模型,解决语音技术落地难题,降低“幻觉输出”率,解决“串语种”问题,具备多种实用能力。

十五、RL×LLM技术综述分享:

1. 传统RLHF解决“对齐”问题,让模型更礼貌、安全;2024年起,RL with Verifiable Rewards(RLVR)出现,用可自动判对的奖励代替昂贵人类偏好,使模型在数学、代码等方面表现提升,推理长度和Pass@1增加,“大推理模型(LRM)”概念出圈。

2. 第一篇论文梳理RL在LLM全生命周期玩法,包括预训练、对齐、推理增强阶段;不同阶段有不同关键算法,推理增强阶段以RLVR + 多模态 + Agent为重点;RLVR核心是用“自动判卷”式奖励替代人工偏好,直接优化推理正确率,介绍了GRPO、DAPO、Tree系列、GSPO等算法演进路线。

3. 第二篇论文聚焦LRM,系统拆解RL让LLM长出“长思维链”的奖励设计、策略优化、采样策略、训练资源与落地应用,给出超全盘点;展示奖励设计、策略优化、采样策略等方向的代表性工作;奖励设计分为规则奖励、生成奖励、密集奖励、无监督奖励、奖励塑形5象限;策略优化采用GRPO、DAPO、GSPO等“去Critic”方法;采样策略包括在线难度过滤、树rollout、长度课程等技巧;给出用于LLM RL训练的静态数据集和面向LLM后训练的开源RL基础设施。

4. 论文链接:

• A Survey of Reinforcement Learning for Large Reasoning Models

• Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle

十六、关于AI智能体的观点:

1. 有观点认为2025年AI智能体注定失败,CMU研究显示顶尖模型驱动的智能体在真实任务完成率仅24%,长对话Token成本暴增百倍,70%实用价值依赖工具链。

2. 不必因这些不完美唱衰,智能体解决了传统生成式AI“只会说不会做”短板,能自主规划任务、调用工具。

3. 行业在快速破局,如同济大学的AgentPrune框架降低多智能体通信成本,浪潮信息的AI服务器缩短Token生成延迟,这些是研究切入点。

4. 目前智能体是“超级辅助”,人机协作特性为论文提供贴近实际场景的研究方向。

5. 应抓住技术迭代红利,在学术领域用智能体做研究、发顶会正当时。

6. 推荐《AI智能体实战》,结合案例拆解工具,对掌握技能和论文发表都实用。

十七、AccurateRAG相关:

1. 是Qualcomm团队提出的端到端工程方案,可解决RAG落地难题,在多个数据集上刷新SOTA。

2. 背景:大模型难以记住私有数据或实时信息,RAG虽能“外挂知识库”,但工业级落地受文档解析、检索模型、生成模型问题的卡脖子。

3. 方案总览:

• 模块化组件:包含Preprocessor、Data Generator、Retriever、Answer Generator四个组件。

• 流水线功能:从“脏PDF”到“可上线”仅需一条流水线。

4. 分模块介绍:

• Preprocessor:解决PDF表格结构丢失问题,采用双解析器融合(Unstructured + LlamaParse)将表格转Markdown,按“语义单元”切分并留重叠。

• Data Generator:解决缺少微调数据问题,用Llama - 3.1自动生成并验证QA对,无需人工标注,能提升金融域检索命中率。

• Retriever:解决通用embedding不精准问题,通过对比学习微调BGE、结合BM25关键词匹配,在验证集自动挑选最佳检索策略,提升准确率。

• Answer Generator:解决LLM忽略检索结果问题,用“扩展上下文”微调Llama - 3,LoRA高效适配,推理时自动输出判断结果。

5. 结论:

• 在FinanceBench数据集上,AccurateRAG准确率达42%,显著高于基线系统的19%,消融实验证明组件有效性。

• 在其他基准数据集上,AccurateRAG较现有系统取得更高分数,实现新的SOTA。

十八、2025年10月6日OpenAI举办DevDay开发者大会:

1. 核心数据亮眼,ChatGPT周活破8亿、开发者400万、API每分钟60亿token,两年各翻1 - 8倍。

2. 四大发布:Apps SDK让ChatGPT变“AI操作系统”;AgentKit可零代码造智能体;Codex正式版上线;GPT - 5 Pro、Sora 2视频与GPT - Realtime - Mini全新API全开。

3. AgentKit是面向开发者与企业、覆盖全生命周期的AI Agent构建工具包,能快速上线生产级多步自主智能体。

4. 与开源/竞品对比,有可视化编排、原生版本/灰度、内置多模型评估等特性,存在仅支持OpenAI模型的生态锁定。

5. 核心组件:

• Agent Builder:可视化画布,有拖拽式节点,内建版本管理,基于Responses API,老用户可平滑迁移。

• ChatKit:可嵌入聊天界面,几行代码集成,支持自定义,适配移动端。

• Evals for Agents:可逐节点打分定位失败环节,自动优化提示词,支持外部模型对比。

• Connector Registry:企业级连接中枢,Admin控制台集中管理连接器,满足合规审计,可内部复用。

6. 典型场景包括客户支持、销售外呼、内部运维等。

7. 总结:AgentKit牺牲“模型可选性”换取“极致快 + 企业治理”,适合深度使用OpenAI或急需将Agent投入生产的团队。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap