当网络进入“光通信时代”后,另一种更高层次的交换设备悄然登场——光路交换机(Optical Circuit Switch,简称 OCS)。它不像普通交...
2025-10-11 0
一、生成式AI有多款新模型发布:
1. 谷歌DeepMind发布Gemini 2.5 Computer Use,类似OpenAI的CUA,可让AI控制浏览器操作,基准测试性能达SOTA,效率高,有多层安全机制,开发者可通过相关API获取能力。
2. 英特尔将于2026年1月发布18A工艺首款量产处理器Panther Lake,多核和图形性能提升超50%,功耗降30%,平台AI算力达180 TOPS。
3. Sand.ai团队推出国产音画同步模型GAGA - 1,专注人物表演达影视级别,支持多语言,全员免费无水印,未来价低于竞品。
4. vivo OriginOS 6集成蓝心大模型,新增功能,蓝心小V能力提升,重构安卓底层核心提升流畅度。
5. Figure公司发布Figure 03人形机器人,能感知回形针重量,搭载新系统与视觉系统,有量产规划。
6. 美图秀秀AI合照功能获奖,美图公司实践“反惯性工作流”,有“AI创新工作室”,发布新价值观。
7. 马斯克xAI推出视频生成模型Imagine v0.9并免费开放,相比初代有提升,生成时间短,支持语音优先界面,但文字理解有缺陷,不提示风险,不支持中文。
8. 蚂蚁集团发布并开源万亿参数大模型Ling - 1T,采用自研架构,推理时激活参数少,基准测试表现好,训练采用三阶段路径,支持线上体验。
9. 腾讯推出混元图像3.0并在元宝App上线,能一句话生成统一内容,新版本细节丰富、画质细腻,支持多种创作风格,后登顶LMArena文生图榜单,免费且性能强,腾讯构建全链路AI体系。
10. 以色列AI21 Labs开源轻量推理模型Jamba Reasoning 3B,可在手机端运行,性能对标竞品,效率高,成本低。
11. OpenAI发布AgentKit工具集;Codex正式版上线,新增集成和SDK;发布新模型接口,ChatGPT开放Apps SDK;还发布Sora2,上线三天登顶美榜,新功能出色,可能集成语言模型,有“互动式同人创作”计划。
12. Gemini 3.0 Pro内测显示编程实力强,基准测试表现优,谷歌预计下周发布。
13. Thinking Machines Lab发布产品Tinker用于大模型微调,使用LoRA技术降低成本。
14. Claude Sonnet 4.5编程评测领先,推出Agent SDK,有实验性功能将向用户开放。
15. 智谱GLM - 4.6代码能力提升,上下文窗口扩展,在编程测试中表现佳,实现国产芯片部署。
16. 谷歌Nano Banana开放API,新增功能,定价单图约0.28元。
17. DeepSeek-V3.2-Exp引入稀疏注意力机制提升长文本训练和推理效率,在两平台开源,公开论文及代码,API降价超50%,保留V3.1 - Terminus接口至10月15日。
18. 智源RoboBrain-X0是零样本跨本体泛化通用小脑基座,学习“做什么”拆解动作,真机评测成功率高。
19. 混元3D - Omni是业界首个统一多种条件控制的3D生成模型,解决单视图生成问题。
20. GPT - 5在量子复杂性理论研究瓶颈时半小时给出有效方案,但整体问题未最终解决。
二、前沿科技成果:
1. 2025年诺贝尔化学奖授予三位科学家,表彰其在金属有机框架(MOF)材料发展方面的贡献,材料能解决多种环境问题;诺贝尔物理学奖和生理学或医学奖揭晓,物理学奖表彰他们在量子力学领域的贡献,医学奖成果为自身免疫性疾病和癌症研究奠基。
2. 英伟达在机器人学习大会上开源Newton物理引擎、Isaac GR00T N1.6基础模型和Cosmos世界模型等多项技术,全面解决机器人研发中的仿真、推理和训练难题
3. 加州理工团队创造6100比特量子比特阵列,保持相干13秒,精度99.98%,奠定大型纠错量子计算机基础。
三、报告观点呈现:
1. Altman描述OpenAI愿景是构建“垂直整合AGI帝国”,Sora等产品推动社会与技术“协同进化”,但也同时面临版权、能源、监管等挑战。
2. 具身智能公司Figure获融资,目标规模化部署机器人,部署是“卡脖子”环节,家庭场景部署尚需时日,商业市场短期更有吸引力。
3. 谷歌资深工程主管发布《智能体设计模式》,总结21个AI Agent开发关键设计模式,免费在线阅读,强调实用性和可落地性。
4. 谷歌前CEO认为美国将赢得AGI竞赛,中国将主导人形机器人市场;美国AI面临电力瓶颈;创业成功关键在于快速行动和构建“学习”系统。
5. AlphaGo研究者驳斥AI停滞论,预测2026年是AI广泛融入经济关键年。
6. Flash Attention作者认为英伟达GPU统治2 - 3年内将终结,推理成本将再降,AI应用分化,代理型和实时视频生成是下一波杀手级应用。
四、2025年10月10日开源项目信息
1. 微软开源UserLM,专攻对话中用户角色模拟,推动真实交互技术落地。微软开发的UserLM - 8b模型,模拟对话中“用户”角色,通过预测用户发言实现真实对话模拟,对开发对话助手有用,可根据任务意图生成用户发言及结束标记。
2. Lumina - DiMOO全方位基础模型,专注多模态生成和理解,采用完全离散扩散建模,支持多种多模态任务,采样效率高,在多个基准测试中性能领先。
3. Salesforce AI Research开发的CoDA - v0 - Instruct是基于扩散的语言模型,用于代码生成和双向上下文理解,适合代码补全和生成任务,以轻量级形式发布。
4. Model Explorer ONNX是可视化ONNX模型的工具,图形化展示模型输入、输出和节点,支持在Windows上通过WSL运行,支持与PyTorch的ONNX导出器集成。
5. Code2Video是以代码为中心的框架,从知识点生成教育视频,利用可执行代码确保视频质量,模块化设计,推出首个代码驱动视频生成基准MMMC。
五、2025年10月9日开源项目信息:
1. 基座模型:
• Ling - 1T是Ling 2.0系列首个旗舰非思维模型,1万亿总参数,基于Ling 2.0架构。在超20万亿tokens预训练,支持128K上下文长度,采用进化链式思维提高效率和推理深度,在复杂推理基准有先进性能。
• HunyuanVision的Hunyuan - Vision - 1.5是mamba - transformer混合架构的视觉语言模型,有先进多语言多模态理解和推理能力,在图像、视频等任务表现出色。
2. 框架平台、必备工具:Being - VL - 0.5是多模态大模型,用视觉字节对编码(vBPE)结合文本和图像理解,创建更统一表示。
3. Agent开发:
• FireRedChat提供自托管方案构建实时语音AI agent,集成TTS、ASR等功能,可定制、注重隐私,不依赖外部API。
• DeepScientist推动科学前沿的AI系统,能在多领域超越人类现有技术水平,在AI文本检测和“Agent Failure Attribution”任务有进展。开源分多阶段。
• LIRA改善大规模多模态模型分割和理解能力的框架,通过SEFE和ILVC提高准确性、减少幻觉,引入AttrEval数据集。实验达先进性能。
六、OpenAI于2025年10月1日凌晨发布Sora 2及首款Sora iOS社交应用:
1. 技术突破:
• 物理智能:在物理模拟上有巨大突破,告别先前模型扭曲现实的“乐观”倾向,生成内容更符合自然法则。
• 多模态融合:首次实现音画同步,能生成复杂背景音景、语音和音效,提升视频真实感与沉浸感。
• 可控性与风格表现:可控性飞跃,能执行复杂指令,保持世界状态连续性,可生成长篇叙事视频,还能处理多种风格。
2. 创新功能:“客串”功能可让用户将自身形象与声音融入AI生成场景,颠覆传统社交互动方式。
3. 社交应用:Sora App以创作为核心,鼓励用户成为内容创造者,通过邀请制率先在美国和加拿大上线,未来将扩展。
4. 安全治理:部署多重安全与治理机制,设三层审核机制,保护肖像权,对青少年有严格管理,视频下载带水印并开发检测工具。
七、2025年9月30日,智谱发布GLM - 4.6:
1. 性能亮点:
• 国产最强代码模型,在多个权威基准中表现对齐Claude Sonnet 4,部分真实编程任务超越对手,代码能力较上一代跃升27%。
• 真实编程任务平均token消耗较上一代降低超30%,成本效益达同类顶尖。
• 上下文窗口长度从128K扩展至200K,可处理更复杂任务。
2. 生态融合:首次在寒武纪、摩尔线程等国产芯片上实现FP8 + Int4混合量化部署,打通“模型 + 芯片”链路,降低推理成本,展现国产GPU生态潜力。
3. 体验升级:
• GLM Coding Plan升级,订阅用户自动升级至GLM - 4.6,解锁图像识别与搜索能力,支持超10种编程工具。
• 推出企业版,为企业提供编码解决方案;模型即将在Hugging Face和ModelScope开源,遵循MIT协议。
八、2025年9月30日,Anthropic发布新一代旗舰Claude Sonnet 4.5:
1. 极限编码耐力:创下超30小时连续自主编码纪录,碾压GPT - 5 Codex,在SWE - bench评测达行业SOTA水平,能写约1.1万行代码构建聊天应用,在OSWorld基准测试成绩领先。
2. 智能体架构开放:发布Claude Agent SDK,开放构建复杂智能体核心基础设施;Claude Code有更新,API增添工具以处理高复杂度任务。
3. 全能进化:计算机综合操作、推理及数学能力飞跃,定价与上一代相同。
4. 安全对齐新高:是Anthropic对齐性最好的前沿模型,在ASL - 3安全等级下发布,抵御提示注入攻击有进展,减少不良行为。
5. 战略意图与未来展望:在OpenAI大会前发布,施压对手并赢回信任;发布“Imagine with Claude”实验性预览,预示人机协作终极形态,宣告AI向“自主协作者”进化加速。
九、2025年9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp:
1. 首创DeepSeek稀疏注意力(DSA)机制,精准破解AI大模型处理长文本时的效率瓶颈,在几乎不影响模型输出效果的前提下,显著提升长文本训练与推理速度,新模型在公开评测基准上表现与前代版本基本持平。
2. 模型、论文、底层CUDA算子与高级语言TileLang版本同步向社区开放,降低了社区研究、调试和快速迭代的门槛。
3. 得益于DSA使服务成本大幅降低,官方API价格下调超50%,开发者调用成本直接减半,目前官方API默认切换至DeepSeek-V3.2-Exp版本。
4. 作为实验性版本,DeepSeek-V3.2-Exp需在更多真实场景检验,官方临时保留V3.1 - Terminus的API访问接口,并以V3.2 - Exp的最新低价提供,并行测试接口开放至2025年10月15日。
十、2025年9月30日开源关键要点:
1. 基座模型:
• DeepSeek-V3.2-Exp是DeepSeek - AI推出的实验性模型,引入稀疏注意力机制,优化长文本训练和推理效率,训练配置与V3.1 - Terminus一致,性能相当。
• MinerU2.5是1.2B参数的视觉语言模型,专注文档解析,采用两阶段解析策略,在多基准测试中表现优且计算开销低。
• Wan - Alpha是高质量文本生成视频项目,支持Alpha通道,能生成多样场景视频及半透明对象等。
• Ring - 1T - preview是inclusionAI开发的预览版语言模型,基于1万亿参数,提升自然语言推理能力,在数学竞赛和代码生成任务表现出色,但存在一些问题。
2. 框架平台、必备工具:unity - mcp是Unity的MCP服务器,让AI助手通过本地MCP客户端与Unity编辑器交互,提供多种操作工具。
3. Robotics开发:FSDrive提出时空协同推理方法,使自动驾驶车辆在端到端框架下进行视觉化轨迹规划,推动自动驾驶向视觉推理发展。
十一、2025年9月29日开源项目汇总:
1. 基座模型:
• SALMONN是字节跳动开发的多模态大语言模型家族,结合音视频提升理解和生成能力,能生成高质量音视频字幕,开放语音质量评估数据集和模型。
• HunyuanImage - 3.0是本地多模态模型,结合多模态理解和生成,文本到图像模块性能出色,是最大的开源图像生成专家混合(MoE)模型。
• Logics - Parsing是端到端文档解析模型,基于通用视觉语言模型构建,擅长分析和结构化复杂文档。
2. 框架平台、必备工具:
• ShinkaEvolve是结合大型语言模型和进化算法的框架,实现科学代码自动探索和改进,适合有验证器的科学任务。
• based - cpp提供GNU接口层和g++标准库实现,展示C++作为解释型语言的潜力。
3. Agent开发:Local_Pdf_Chat_RAG是面向RAG技术初学者的本地化智能问答系统,处理PDF文档实现精准问答,保障数据隐私。
十二、2025年9月28日开源内容:
1. 基座模型:
• TinyR1 - 32B由北京奇虎科技有限公司开发,引入控制信号实现训练数据模式动态切换,经20,000个高质量微调样本和三轮SFT训练,在推理、指令跟随和安全性方面超越Qwen3 - 32B,尤其在指令跟随和安全性上优于DeepSeek - R1 - 0528。
• KAT - Dev - 32B是开源32B参数模型,专为软件工程任务设计,在SWE - Bench验证中解决率达62.4%,排名第五,经多阶段优化。
2. 框架平台、必备工具:
• KNighter是创新检查器合成工具,利用LLMs从历史补丁提交自动生成静态分析检查器,基于LLVM构建,用于在大型C/C++代码库中发现错误。
• qa - use是基于AI的自动化QA测试平台,结合大语言模型驱动的智能代理与浏览器交互能力,经多轮调优和训练,在自动化测试准确性、易用性与稳定性方面优于传统脚本化方案。
3. Robotics开发:Hunyuan3D - Part是从图像生成3D部件项目,包含P3 - SAM(负责原生3D部件分割)和X - Part(生成完整部件),适用于处理扫描或AI生成的网格。
4. 复刻方案:DKP++关于非样本终身人员重识别研究,提出分布感知的知识对齐和原型设计方法,解决因数据分布变化和缺乏样本导致的模型性能下降问题。
十三、2025年9月26日开源项目:
1. 基座模型:LIMI项目提出“agent效率原则”,改变自主AI系统开发方式,为行业从“思考型AI”向“工作型AI”过渡提供可持续范式。
2. 框架平台、必备工具:
• GeoReasoning项目生成高质量图像 - 描述对,提升AI系统多模态推理能力,在多领域表现出色,基于50个基本关系可扩展复杂几何问题。
• SimpleVLA - RL是高效强化学习框架,为VLA模型设计,在数据稀缺时提升长远规划能力,优于监督微调,揭示新动作现象,增强泛化能力。
• ViSpec是视觉语言模型加速框架,通过视觉感知推测解码技术提高推理速度,克服多模态数据集稀缺问题,实现显著加速。
3. Agent开发:OpenLens AI是医疗领域全自动研究agent,用户提供数据集和想法,可独立完成研究流程并生成报告。
4. 复刻方案:TC - Light是操控视频光照分布的一次性模型,适用于高动态视频,有出色时间一致性和计算效率,在相关增强及训练视频重光照模型方面有价值。
十四、云栖大会上通义系列模型密集发布:
1. Qwen MAX:万亿参数旗舰模型,智能水平跨越式提升,代码与工具调用能力刷新国际榜单,数学推理评测获满分。
2. Qwen3 - Omni:原生全模态大模型,解决多模态与文本智力平衡难题,支持多语言输入,可精准处理长会议录音,能嵌入多系统执行复杂指令。
3. Qwen3- VL:重新定义视觉理解边界,支持长上下文分析视频,具备视觉智能体能力,为具身智能等前沿场景铺路。
4. Qwen - Image:工业级图像编辑专家,升级聚焦一致性与可控性,支持多图参考编辑,集成ControlNet。
5. Qwen3 - Coder:通过联合训练能力跃迁,支持超长上下文,可理解并修复整个项目级代码库。
6. Wan2.5 - Preview:视频生成原生支持音画同步,文生图强化文字和图表渲染,兼具美学与实用性。
7. 通义百聆:企业级语音基座大模型,解决语音技术落地难题,降低“幻觉输出”率,解决“串语种”问题,具备多种实用能力。
十五、RL×LLM技术综述分享:
1. 传统RLHF解决“对齐”问题,让模型更礼貌、安全;2024年起,RL with Verifiable Rewards(RLVR)出现,用可自动判对的奖励代替昂贵人类偏好,使模型在数学、代码等方面表现提升,推理长度和Pass@1增加,“大推理模型(LRM)”概念出圈。
2. 第一篇论文梳理RL在LLM全生命周期玩法,包括预训练、对齐、推理增强阶段;不同阶段有不同关键算法,推理增强阶段以RLVR + 多模态 + Agent为重点;RLVR核心是用“自动判卷”式奖励替代人工偏好,直接优化推理正确率,介绍了GRPO、DAPO、Tree系列、GSPO等算法演进路线。
3. 第二篇论文聚焦LRM,系统拆解RL让LLM长出“长思维链”的奖励设计、策略优化、采样策略、训练资源与落地应用,给出超全盘点;展示奖励设计、策略优化、采样策略等方向的代表性工作;奖励设计分为规则奖励、生成奖励、密集奖励、无监督奖励、奖励塑形5象限;策略优化采用GRPO、DAPO、GSPO等“去Critic”方法;采样策略包括在线难度过滤、树rollout、长度课程等技巧;给出用于LLM RL训练的静态数据集和面向LLM后训练的开源RL基础设施。
4. 论文链接:
• A Survey of Reinforcement Learning for Large Reasoning Models
• Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle
十六、关于AI智能体的观点:
1. 有观点认为2025年AI智能体注定失败,CMU研究显示顶尖模型驱动的智能体在真实任务完成率仅24%,长对话Token成本暴增百倍,70%实用价值依赖工具链。
2. 不必因这些不完美唱衰,智能体解决了传统生成式AI“只会说不会做”短板,能自主规划任务、调用工具。
3. 行业在快速破局,如同济大学的AgentPrune框架降低多智能体通信成本,浪潮信息的AI服务器缩短Token生成延迟,这些是研究切入点。
4. 目前智能体是“超级辅助”,人机协作特性为论文提供贴近实际场景的研究方向。
5. 应抓住技术迭代红利,在学术领域用智能体做研究、发顶会正当时。
6. 推荐《AI智能体实战》,结合案例拆解工具,对掌握技能和论文发表都实用。
十七、AccurateRAG相关:
1. 是Qualcomm团队提出的端到端工程方案,可解决RAG落地难题,在多个数据集上刷新SOTA。
2. 背景:大模型难以记住私有数据或实时信息,RAG虽能“外挂知识库”,但工业级落地受文档解析、检索模型、生成模型问题的卡脖子。
3. 方案总览:
• 模块化组件:包含Preprocessor、Data Generator、Retriever、Answer Generator四个组件。
• 流水线功能:从“脏PDF”到“可上线”仅需一条流水线。
4. 分模块介绍:
• Preprocessor:解决PDF表格结构丢失问题,采用双解析器融合(Unstructured + LlamaParse)将表格转Markdown,按“语义单元”切分并留重叠。
• Data Generator:解决缺少微调数据问题,用Llama - 3.1自动生成并验证QA对,无需人工标注,能提升金融域检索命中率。
• Retriever:解决通用embedding不精准问题,通过对比学习微调BGE、结合BM25关键词匹配,在验证集自动挑选最佳检索策略,提升准确率。
• Answer Generator:解决LLM忽略检索结果问题,用“扩展上下文”微调Llama - 3,LoRA高效适配,推理时自动输出判断结果。
5. 结论:
• 在FinanceBench数据集上,AccurateRAG准确率达42%,显著高于基线系统的19%,消融实验证明组件有效性。
• 在其他基准数据集上,AccurateRAG较现有系统取得更高分数,实现新的SOTA。
十八、2025年10月6日OpenAI举办DevDay开发者大会:
1. 核心数据亮眼,ChatGPT周活破8亿、开发者400万、API每分钟60亿token,两年各翻1 - 8倍。
2. 四大发布:Apps SDK让ChatGPT变“AI操作系统”;AgentKit可零代码造智能体;Codex正式版上线;GPT - 5 Pro、Sora 2视频与GPT - Realtime - Mini全新API全开。
3. AgentKit是面向开发者与企业、覆盖全生命周期的AI Agent构建工具包,能快速上线生产级多步自主智能体。
4. 与开源/竞品对比,有可视化编排、原生版本/灰度、内置多模型评估等特性,存在仅支持OpenAI模型的生态锁定。
5. 核心组件:
• Agent Builder:可视化画布,有拖拽式节点,内建版本管理,基于Responses API,老用户可平滑迁移。
• ChatKit:可嵌入聊天界面,几行代码集成,支持自定义,适配移动端。
• Evals for Agents:可逐节点打分定位失败环节,自动优化提示词,支持外部模型对比。
• Connector Registry:企业级连接中枢,Admin控制台集中管理连接器,满足合规审计,可内部复用。
6. 典型场景包括客户支持、销售外呼、内部运维等。
7. 总结:AgentKit牺牲“模型可选性”换取“极致快 + 企业治理”,适合深度使用OpenAI或急需将Agent投入生产的团队。
相关文章
当网络进入“光通信时代”后,另一种更高层次的交换设备悄然登场——光路交换机(Optical Circuit Switch,简称 OCS)。它不像普通交...
2025-10-11 0
一、生成式AI有多款新模型发布:1. 谷歌DeepMind发布Gemini 2.5 Computer Use,类似OpenAI的CUA,可让AI控制浏...
2025-10-11 0
【无需打开直接搜索微信;-】 操作使用教程: 1.亲,实际上微乐湖北麻将万能开挂器是可以开挂的,确实有挂.2.在"设置D...
2025-10-11 0
国庆中秋假期,一座融合智能服务与沉浸式体验的“AI游西江”线下体验馆亮相西江千户苗寨。由马蜂窝提供技术支持的体验馆集成扫码线上购票、优惠人群AI认证入...
2025-10-11 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-10-11 0
10月28日至30日,由萧企打造的素有“红人奥斯卡”之称的“无忧之夜2025”,将落地海南三亚。据悉,本届“无忧之夜”以“天生敢耀”为主题,设晚会盛典...
2025-10-11 0
据市场研究公司Counterpoint Research最新公布的数据,今年第二季度,台积电占据纯晶圆代工市场71%的份额,位居第一。台积电的市场份额...
2025-10-11 0
提到蔡国强,你脑子里冒出来的肯定是烟花吧?毕竟2008年北京奥运那“大脚印”、2015年那“天梯”,早把他“烟火艺术家”的标签钉得牢牢的。但你可能不知...
2025-10-11 1
发表评论