首页 今日新闻文章正文

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

今日新闻 2025年08月04日 08:32 0 aa

智谱AI在7月28日晚发布了GLM-4.5,从官网公布的信息看,我提炼了几个关键词,推理、代码、开源、SOTA,所以GLM-4.5和DeepSeek-R1/V3, Kimi-k2和一样,是擅长推理、编程的开源大模型,但GLM-4.5达到了开源SOTA的能力,SOTA意味着它是开源里技术先进、表现最好、性能最优的模型,以我对智谱AI的了解,这绝不是夸张的宣传噱头。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

首先从模型真实评测数据来看,GLM-4.5在主要的12个模型评测基准综合得分超过了所有国产模型,在所有模型对比中全球第三、国产第一、开源也是第一,这些评测基准包括了测评通用知识与综合能力的MMLU Pro、GPQA Diamond、HLE,评测数学与逻辑推理的AIME 2024、MATH-500,评测编程与工程能力的LiveCodeBench、SWE-Bench Verified、SciCode,还有评测工具交互与生态集成能力的BFCL v3、Terminal-bench、TAU-Bench、BrowseComp,可见着重对比了推理和编程能力。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

Coding测试下来接近Claude 4 Sonnet水平,基本可以平替。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

评测得分这么高,真实体验如何,我专门测试了GLM-4.5的代码能力,从https://chat.z.ai/进去即可,我让它编写代码实现太阳系行星绕太阳公转的可视化动态画面,而且要符合物理规律。

首先速度很快,整个推理过程大概在十几秒,其次推理步骤会隐藏在一个小框框里,不会占用页面,最后它生成了一个html文件,在页面侧边栏可以直接打开并直接渲染,可视化效果让我很意外,以为是demo,没想到是集控件、动画、渲染一体的完整看板。

https://chat.z.ai/space/k0ecw60emqa0-art

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

说实话同样的任务我在其他开源推理模型中测试,达到这个效果的寥寥无几。

为什么GLM-4.5推理编程能力这么强,并且综合能力达到开源SOTA?

基于官网发布的信息,我总结了以下几个点,是它能力提升的核心要素。

1、训练流程优化

GLM-4.5的训练过程主要分为三大阶段:先是15万亿token通用预训练、然后是针对代码/推理/智能体的8万亿token 专门训练、最后是强化学习增强代码/推理/智能体能力,而其他开源推理模型缺少领域针对性精调。

2、参数效率更高

模型性能取决于参数大小?那就太天真了,GLM-4.5 总参数3550亿(激活参数为320亿),仅为 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但GLM模型参数效率更高,采用混合专家(MoE)架构,所以在综合评测中拔得开源模型头筹。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

3、多能力融合

GLM-4.5由于训练算法的创新,能在单模型中原生融合推理、编码、智能体能力的模型,这应该是行业第一个做到的,可以无缝切换用于复杂推理的思考模式,以及用于快速回答的非思考模式,而且它的Agent工具调用可靠性更高,这就使得GLM-4.5模型综合能力强于其他同类模型。

除了在模型性能上的亮点之外,我觉得GLM-4.5的成本和速度也非常感人,API调用的话,输入0.8 元/百万 tokens,输出仅2 元/百万tokens,比其他主流模型低80%以上,而且性能达到SOTA水平,这就是现实中的加量还降价。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

前面说到,GLM-4.5对话速度很快,我提问了一个编程问题,推理速度比我之前用的其他模型明显加速了好几倍,它的真实实测生成速度超过了100tokens/秒,而且支持支持高并发实时交互,其他主流模型一般在50tokens/秒左右,用下来你会有明显的感知差异。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

由于GLM-4.5可以接进Claude Code、Cline等编程agent进行AI编程,所以我专门跑通了这个流程,从编程能力上看GLM-4.5基本上可以带给你现在最好的代码体验。

如何在Claude Code上接入GLM-4.5模型呢?

很简单,分为三步走。

首先你需要去bigmodel平台注册一个key,bigmodel是智谱AI的模型管理平台,里面有GLM-4.5在内的多种大模型接口。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

登陆后进入控制台,点击右上角钥匙按钮,直接生成一个key密钥,备用。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

然后你需要给Claude Code配置环境变量,也就是配置GLM-4.5模型,前提是你电脑上提前安装好了Claude Code,如果没有安装可以去Claude查看安装教程。

我用的是mac,配置GLM-4.5环境变量,需要先打开终端,然后输入以下命令。

export ANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic export ANTHROPIC_AUTH_TOKEN="这里输入你注册的bigmodel API keys"

配置好后,在终端启动Claude Code,输入`Claude`即可。

当你看到终端出现以下的界面,说明Claude Code已经配置好GLM-4.5模型了,就能开始愉快的编程了。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

然后你可以在编辑框与GLM-4.5对话,让它写代码,比如编写Python代码,实现二分类算法。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

GLM-4.5会给出详细的代码解决方案,涵盖多种二分类算法和评估方法,可以看到它没有糊任务,是真的很专业。

接下来提问更难的任务,让GLM-4.5直接生成一个网站,比如搭建一个类似知乎的网站。

不需要其他复杂的提示词,GLM-4.5会分析你的简单需求,然后给出让你惊讶的结果。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

最终会你会看到如下的效果,它生成了一个完整的网页,UI和知乎几乎一致,可以注册、登陆、提问、关注,还有推荐、热榜、话题等功能,不能说一模一样,可以说形神兼备。

你可以根据自己的需求对网站进行UI和功能的调整,直接提给GLM-4.5就可以。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

除了Claude Code,你还可以在VsCode Cline插件里调用GLM-4.5,体验效果也很丝滑流畅。
安装好Cline后,直接在设置里配置GLM-4.5的接口地址和API key,注意需要选择Anthropic,因为GLM-4.5可以通过一个兼容 Anthropic API 的端点来调用。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

配置好后,就可以直接使用Cline来与GLM-4.5对话进行编程。

这里我让它执行一个具体的任务,使用Python搭建一个电商公司BI分析看板,UI简洁美观实用。
然后它设计一套方案,技术栈上基于Streamlit构建电商公司BI分析看板,使用pandas处理数据,plotly来数据可视化。

功能特点包含了关键指标分析、趋势分析、明细数据、响应式布局等。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

并且有界面功能的说明,我比较满意。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

代码生成好后,它会自动帮你配置依赖库,最后执行如下命令打开BI看板。

cd ecommerce_bi_dashboard && python3 -m streamlit run app.py
智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

有专门的筛选器可以筛选时间和类别。

智谱新一代开源大模型 GLM-4.5发布,编程能力不输DeepSeek R1!

后台可以配置数据,按实际业务生成看板。

从我个人测试GLM-4.5编程能力的体验来看,它的代码能力基本可以平替Claude Sonnet 4,而且速度会更快,这次的官方发布称为开源SODA并不为过。

开源在持续的发力,爆款模型接二连三,OpenAI、Gemini、Claude等承受很大的压力,可能AI大模型的格局又要发生一次变化了。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap