前言北京时间9月30号凌晨,Anthropic 正式发布了 Claude Sonnet 4.5,官方宣称这是迄今为止 “最强大的编码模型” 与 “最符...
2025-10-03 0
北京时间9月30号凌晨,Anthropic 正式发布了 Claude Sonnet 4.5,官方宣称这是迄今为止 “最强大的编码模型” 与 “最符合前沿技术的模型”。与之前的 Claude 模型相比,在多个领域都有了很大的改进,接下来我们一起看看它的关键升级都有哪些吧。
让我们深入了解一下它的新特性、它与其他前沿模型的比较,以及为什么它可能是目前市场上适合开发人员、企业和高级用户的最佳模型。
Claude Sonnet 4.5 在SWE-bench Verified测试中展现了卓越的性能,该测试旨在评估 AI 模型在现实世界中的软件工程能力,它的准确率达到了77.2%,在使用并行测试时计算时则提升至 82.0% 。这些结果使 Claude 领先于包括 OpenAI 的 GPT-5 和谷歌的 Gemini 2.5 Pro 在内的竞争对手。
Anthropic表示,Claude 4.5能够持续长达30小时的不间断编码,相比今年早些时候Claude Opus 4实现的7小时基准测试,实现了显著提升。在内部测试中,该模型能够自主构建和部署完整的软件堆栈,包括后端服务、域配置,甚至安全审计。
Claude Sonnet 4.5还显示出在推理和数学等广泛评估方面的改进能力。
金融、法律、医学和 STEM 领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。
在安全性能方面,Claude Sonnet 4.5取得了显著进步,它减少了诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为。对于该模型的代理和计算机使用功能,在防御即时注入攻击方面也取得了显著进展。
Anthropic同时推出了Claude Agent SDK,这是构建Claude Code所使用的基础设施,现在可供所有开发者使用,这意味着开发者可以构建与自己使用的相同能力的智能体。
Claude Sonnet 4.5的发布标志着AI安全领域的一个重要里程碑。通过在安全性、对齐能力和透明度方面的显著改进,该模型为未来AI技术的发展设立了新的标准。
在人工智能快速发展的今天,这种全面而深入的安全评估不仅为行业提供了宝贵经验,也为未来AI技术的发展指明了方向。
相关文章
前言北京时间9月30号凌晨,Anthropic 正式发布了 Claude Sonnet 4.5,官方宣称这是迄今为止 “最强大的编码模型” 与 “最符...
2025-10-03 0
8月份因为实在太忙,热点也多,停了一期,没想到这个月再看榜单,变化是真的大。这个大,我分析有两个方面原因,一是国补在很多城市停了,大家都在观望,不过有...
2025-10-03 1
短短几个月内,ARR 就从 0 快速增长到了七位数。这是当下 AI 创企圈子里,一种常见的「叙事」方式。创始人们几乎都面临着一种巨大的压力:要成为那家...
2025-10-03 1
你的手机一定也戴套吧?站在手机厂家的角度,对消费者给手机戴套的行为是不支持的,并不是因为盼着手机被摔坏,用手机生产商的话来吐槽:我们每年投入天价的模具...
2025-10-03 4
信息来源:https://techxplore.com/news/2025-09-artificial-neurons-communicate-cel...
2025-10-03 0
为深入实施科教兴国战略、人才强国战略、创新驱动发展战略,弘扬科学家精神,激励青年科技人才投身高质量发展,推进青年科技工作者挑大梁、担重任、当主角,中国...
2025-10-03 1
川观新闻记者 高杲国庆假期,四川具身人形机器人科技有限公司(简称四川具身科技)董事长冯振宇并没有闲着,他忙着“调研”——陪朋友参观宽窄巷子等景区时,他...
2025-10-03 0
来源:环球网 【环球网科技综合报道】据海外科技媒体The Verge透露,亚马逊宣布在美国推出名为“添加到配送”的新服务,Prime会员现在可以将额外...
2025-10-03 1
发表评论