近日,宜宾市第一人民医院神经外科团队运用先进的神经外科机器人,成功为两名突发脑出血患者实施微创手术,术后患者恢复良好。2025年7月,筠连县杨女士(4...
2025-08-04 0
智谱AI在7月28日晚发布了GLM-4.5,从官网公布的信息看,我提炼了几个关键词,推理、代码、开源、SOTA,所以GLM-4.5和DeepSeek-R1/V3, Kimi-k2和一样,是擅长推理、编程的开源大模型,但GLM-4.5达到了开源SOTA的能力,SOTA意味着它是开源里技术先进、表现最好、性能最优的模型,以我对智谱AI的了解,这绝不是夸张的宣传噱头。
首先从模型真实评测数据来看,GLM-4.5在主要的12个模型评测基准综合得分超过了所有国产模型,在所有模型对比中全球第三、国产第一、开源也是第一,这些评测基准包括了测评通用知识与综合能力的MMLU Pro、GPQA Diamond、HLE,评测数学与逻辑推理的AIME 2024、MATH-500,评测编程与工程能力的LiveCodeBench、SWE-Bench Verified、SciCode,还有评测工具交互与生态集成能力的BFCL v3、Terminal-bench、TAU-Bench、BrowseComp,可见着重对比了推理和编程能力。
Coding测试下来接近Claude 4 Sonnet水平,基本可以平替。
评测得分这么高,真实体验如何,我专门测试了GLM-4.5的代码能力,从https://chat.z.ai/进去即可,我让它编写代码实现太阳系行星绕太阳公转的可视化动态画面,而且要符合物理规律。
首先速度很快,整个推理过程大概在十几秒,其次推理步骤会隐藏在一个小框框里,不会占用页面,最后它生成了一个html文件,在页面侧边栏可以直接打开并直接渲染,可视化效果让我很意外,以为是demo,没想到是集控件、动画、渲染一体的完整看板。
https://chat.z.ai/space/k0ecw60emqa0-art
说实话同样的任务我在其他开源推理模型中测试,达到这个效果的寥寥无几。
为什么GLM-4.5推理编程能力这么强,并且综合能力达到开源SOTA?
基于官网发布的信息,我总结了以下几个点,是它能力提升的核心要素。
1、训练流程优化
GLM-4.5的训练过程主要分为三大阶段:先是15万亿token通用预训练、然后是针对代码/推理/智能体的8万亿token 专门训练、最后是强化学习增强代码/推理/智能体能力,而其他开源推理模型缺少领域针对性精调。
2、参数效率更高
模型性能取决于参数大小?那就太天真了,GLM-4.5 总参数3550亿(激活参数为320亿),仅为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但GLM模型参数效率更高,采用混合专家(MoE)架构,所以在综合评测中拔得开源模型头筹。
3、多能力融合
GLM-4.5由于训练算法的创新,能在单模型中原生融合推理、编码、智能体能力的模型,这应该是行业第一个做到的,可以无缝切换用于复杂推理的思考模式,以及用于快速回答的非思考模式,而且它的Agent工具调用可靠性更高,这就使得GLM-4.5模型综合能力强于其他同类模型。
除了在模型性能上的亮点之外,我觉得GLM-4.5的成本和速度也非常感人,API调用的话,输入0.8 元/百万 tokens,输出仅2 元/百万tokens,比其他主流模型低80%以上,而且性能达到SOTA水平,这就是现实中的加量还降价。
前面说到,GLM-4.5对话速度很快,我提问了一个编程问题,推理速度比我之前用的其他模型明显加速了好几倍,它的真实实测生成速度超过了100tokens/秒,而且支持支持高并发实时交互,其他主流模型一般在50tokens/秒左右,用下来你会有明显的感知差异。
由于GLM-4.5可以接进Claude Code、Cline等编程agent进行AI编程,所以我专门跑通了这个流程,从编程能力上看GLM-4.5基本上可以带给你现在最好的代码体验。
如何在Claude Code上接入GLM-4.5模型呢?
很简单,分为三步走。
首先你需要去bigmodel平台注册一个key,bigmodel是智谱AI的模型管理平台,里面有GLM-4.5在内的多种大模型接口。
登陆后进入控制台,点击右上角钥匙按钮,直接生成一个key密钥,备用。
然后你需要给Claude Code配置环境变量,也就是配置GLM-4.5模型,前提是你电脑上提前安装好了Claude Code,如果没有安装可以去Claude查看安装教程。
我用的是mac,配置GLM-4.5环境变量,需要先打开终端,然后输入以下命令。
export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic export ANTHROPIC_AUTH_TOKEN="这里输入你注册的bigmodel API keys"
配置好后,在终端启动Claude Code,输入`Claude`即可。
当你看到终端出现以下的界面,说明Claude Code已经配置好GLM-4.5模型了,就能开始愉快的编程了。
然后你可以在编辑框与GLM-4.5对话,让它写代码,比如编写Python代码,实现二分类算法。
GLM-4.5会给出详细的代码解决方案,涵盖多种二分类算法和评估方法,可以看到它没有糊任务,是真的很专业。
接下来提问更难的任务,让GLM-4.5直接生成一个网站,比如搭建一个类似知乎的网站。
不需要其他复杂的提示词,GLM-4.5会分析你的简单需求,然后给出让你惊讶的结果。
最终会你会看到如下的效果,它生成了一个完整的网页,UI和知乎几乎一致,可以注册、登陆、提问、关注,还有推荐、热榜、话题等功能,不能说一模一样,可以说形神兼备。
你可以根据自己的需求对网站进行UI和功能的调整,直接提给GLM-4.5就可以。
除了Claude Code,你还可以在VsCode Cline插件里调用GLM-4.5,体验效果也很丝滑流畅。
安装好Cline后,直接在设置里配置GLM-4.5的接口地址和API key,注意需要选择Anthropic,因为GLM-4.5可以通过一个兼容 Anthropic API 的端点来调用。
配置好后,就可以直接使用Cline来与GLM-4.5对话进行编程。
这里我让它执行一个具体的任务,使用Python搭建一个电商公司BI分析看板,UI简洁美观实用。
然后它设计一套方案,技术栈上基于Streamlit构建电商公司BI分析看板,使用pandas处理数据,plotly来数据可视化。
功能特点包含了关键指标分析、趋势分析、明细数据、响应式布局等。
并且有界面功能的说明,我比较满意。
代码生成好后,它会自动帮你配置依赖库,最后执行如下命令打开BI看板。
cd ecommerce_bi_dashboard && python3 -m streamlit run app.py
有专门的筛选器可以筛选时间和类别。
后台可以配置数据,按实际业务生成看板。
从我个人测试GLM-4.5编程能力的体验来看,它的代码能力基本可以平替Claude Sonnet 4,而且速度会更快,这次的官方发布称为开源SODA并不为过。
开源在持续的发力,爆款模型接二连三,OpenAI、Gemini、Claude等承受很大的压力,可能AI大模型的格局又要发生一次变化了。
相关文章
近日,宜宾市第一人民医院神经外科团队运用先进的神经外科机器人,成功为两名突发脑出血患者实施微创手术,术后患者恢复良好。2025年7月,筠连县杨女士(4...
2025-08-04 0
金融界2025年8月4日消息,国家知识产权局信息显示,歌尔股份有限公司申请一项名为“近眼光学显示系统以及智能头戴设备”的专利,公开号CN1204059...
2025-08-04 0
智谱AI在7月28日晚发布了GLM-4.5,从官网公布的信息看,我提炼了几个关键词,推理、代码、开源、SOTA,所以GLM-4.5和DeepSeek-...
2025-08-04 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-04 0
前不久,咱们国家网信办,直接把大名鼎鼎的芯片巨头英伟达给请去“喝茶”了。这可不是一次普通的监管约谈,这背后,是一盘大棋,一盘把特朗普政府自以为高明的“...
2025-08-04 0
金融界2025年8月2日消息,国家知识产权局信息显示,河南金之峰智能科技有限公司取得一项名为“一种光学镜片磨边装置”的专利,授权公告号CN223172...
2025-08-04 0
无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信: 2、自...
2025-08-04 0
最近有没有发现,接到的 10086、10010 电话突然变成五位数了?从 8 月起,移动、电信、联通统一启用 10085、10001、10016 作为...
2025-08-04 0
发表评论