简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » Claude 4.5重夺最强模型王冠:编码能力超越人类专家

Claude 4.5重夺最强模型王冠:编码能力超越人类专家

文章来源: 腾讯科技 于 2025-11-25 20:18:05 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


11月25日凌晨,Anthropic发布了其迄今最强大的AI模型Claude Opus 4.5。该公司宣称,新模型在软件工程任务上实现了“最先进性能”,进一步加剧了其与OpenAI、谷歌等对手之间的竞争。

Claude Opus 4.5在Anthropic软件工程测试中表现出色,得分超越Gemini 3 Pro、GPT-5.1等一众对手。

图:Claude Opus 4.5在SWE Bench软件工程测试中的性能表现

公司数据显示,该模型在SWE-bench Verified(一项评估现实世界软件工程能力的基准测试)中达到了80.9%的准确率,表现超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及谷歌的Gemini 3 Pro(76.2%)。

同时,Anthropic大幅下调了这款模型的定价:输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1(输入15美元/百万,输出75美元/百万)下降约三分之二。

降价使得尖端AI技术对广大开发者和企业更加触手可及,同时也给竞争对手带来了性能与价格的双重压力。

在现实任务中展现更优判断力

测试人员普遍反馈,新模型在各种任务中展现出更强的判断力与直觉。他们将这种进步描述为:模型开始领悟现实情境中的“关键所在”。

“这个模型好像突然‘开窍’了,”开发者关系负责人阿尔伯特表示,“它在处理许多现实问题时表现出的直觉和判断力,让人感觉相比前代模型实现了一次质的跨越。”

阿尔伯特以自身工作为例进一步说明:过去他仅利用AI收集信息,而对它们的整合与优先级排序能力持保留态度。如今,借助Opus 4.5,他已开始委托更完整的任务,通过连接Slack和内部文档,模型能生成与他预期高度契合的连贯摘要。

宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道,新模型的能力确实处于技术前沿。其最显著的提升在于实际应用,例如跨软件操作(如用Excel制作PPT)。

在核心工程测试中超越所有人类工程师

Claude Opus 4.5在Anthropic内部一项高难度工程评估中创下了新纪录。这项评估本是公司为性能工程师岗位设计的限时编程测试,要求求职者在两小时内完成,旨在考察其技术能力与问题判断力。

Anthropic透露,通过采用“并行测试时计算”技术,即汇总模型的多次解题尝试并筛选最优结果,Opus 4.5的最终得分超越了所有曾参与该测试的人类工程师。

在不限时间的条件下,若在其专用编码环境Claude Code中运行,Claude Opus 4.5的解题表现更是与史上最高分的人类工程师持平。

不过该公司也坦言,这类测试无法衡量其他关键专业技能,例如团队协作、有效沟通,或是经年累月形成的专业直觉。

效率飞跃:核心基准测试token消耗大幅降低76%

除原始性能突破外,Anthropic更将效率提升视为Claude Opus 4.5的核心竞争力。新模型在达成相同甚至更优结果时,所需处理的计算token数量显著减少。

具体数据显示,在“中等”投入级别下,Opus 4.5可在SWE-bench Verified测试中达到与Sonnet 4.5相同的最高分,而输出token消耗量却大幅降低了76%。即便在“高”投入级别追求极限性能时,其表现比Sonnet 4.5再提升4.3个百分点,token使用量仍减少了近一半(48%)。

为赋予开发者更精细的控制权,Anthropic引入了全新的“投入”参数。用户可通过此参数,动态调节模型处理每个任务时所投入的计算工作量,从而在性能、响应速度和成本之间找到最佳平衡点。

GitHub首席产品官马里奥·罗德里格斯也证实了类似发现:“早期测试表明,Opus 4.5在token消耗减半的同时,性能仍超越了我们的内部编码基准,尤其在代码迁移与重构等复杂任务上表现尤为出色。”

阿尔伯特对此现象作出技术解读:Claude Opus 4.5并非直接更新其底层参数,而是在持续优化解决问题的工具与方法。“我们看到它在迭代精进任务技能,通过自主优化执行方式来提升最终效果,”他解释道。

这种自我进化能力已突破编程领域。阿尔伯特透露,在专业文档生成、电子表格处理和演示文稿制作等场景中,模型表现均有显著提升。

产品生态全面升级:深度集成Office与浏览器,突破对话长度限制

伴随新模型的发布,Anthropic同步推出了一系列面向企业场景的重要更新。

专为Excel设计的Claude功能现已向Max、Team及Enterprise用户全面开放,新增了对数据透视表、可视化图表及文件上传的完整支持。同时,Chrome浏览器扩展也已向全体Max用户开放使用。

本次更新最具革命性的当属“无限聊天”功能——该技术通过智能总结长对话中的早期内容,有效突破了传统上下文窗口的限制。“在Claude AI产品中,凭借我们创新的内容压缩与内存管理技术,用户实际上获得了近乎无限的对话效果,”阿尔伯特解释道。

面向开发者群体,Anthropic推出了更具工程价值的“程序化工具调用”能力,使得Claude能够直接编写并执行可调用外部函数的代码。同时,Claude Code不仅升级了“计划模式”,更以研究预览版形式推出了桌面客户端,首次支持开发者并行运行多个AI智能体会话。

三强竞逐加速,AI步入“自我进化”与盈利挑战并存新阶段

模型迭代速度正成为竞争焦点。

Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周,这折射出整个行业的加速态势。2025年间,OpenAI持续推出多个GPT-5变体,并于11月发布可自主运行24小时的Codex Max模型;谷歌也经过数月打磨,在11月中旬正式推出Gemini 3。

值得注意的是,Anthropic正利用AI技术反哺自身研发。阿尔伯特透露:“无论是产品构建还是模型研究,Claude本身都在为我们提供助力,显著加速了开发进程。”

面对价格战可能带来的利润压力,阿尔伯特持乐观态度:“降价将推动更多初创公司深度集成并主推我们的技术,从而扩大市场基础。”然而,尽管AI市场预计十年内将突破万亿美元规模,主要实验室在巨额投入计算设施与人才的同时,盈利之路依然漫长,尚未有任何供应商确立绝对主导地位。

对企业和开发者而言,这场竞赛正转化为持续提升的性能与不断下降的成本。但随着AI在专业技术任务上逼近甚至超越人类水平,其对各行业工作模式的颠覆已从理论探讨变为现实挑战。

谈及AI在工程测试中超越人类的表现,阿尔伯特坦言:“这无疑是一个值得高度重视的信号。”

  • 功效卓著,回头客众多!美国专利【骨精华】消除关节痛//骨质疏松;【心血通+益脑灵】强心护脑。
查看评论(0)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

慎入!艾泼斯坦自缢后画面首曝光 狱警崩溃:搞砸了
霍金登“萝莉岛”画面曝 艾泼斯坦助他完成一梦想
中国“人肉鸳鸯锅温泉” 外国客大赞:特别舒服
史上最大 加州扫荡卖淫场所 逮600多人 超一半是嫖客
Meta顶尖AI工程师回国探亲 O1签证被拒 无法返美




24小时讨论排行

政治豪赌 高市早苗一段31秒视频9天破1亿次播放
日本专家:中国禁赴日真正原因 不是因为高市挺台!
AI教母李飞飞:一个洗衣妹,去年身价涨了300亿
乌克兰人开始考虑曾经不可想象的事情:放弃土地…
参议员质问鲁比奥:中国大使遍全球 美国却悬空大半
泽连斯基:“已有5.5万名乌方军人阵亡”
加国著名大学4华人学霸涉爆炸案升级!细节曝光
习近平与特朗普通话,就台湾问题施压
马斯克否认曾计划去萝莉岛 变性女儿踢爆邮件属实
泽连斯基谈停战立场:俄方不能得到任何奖励
全球最大记者监狱!中国2调查记者踢爆丑闻后被消失
刘虎被抓,给新闻业钉上了棺材最后一颗钉子
川普习近平4日通话内容曝 习:慎重处理对台军售
美国最大的丑闻,把哈佛拉下水
爱泼斯坦的“恶魔女友”,在狱中过上VIP生活
美最高法院给加州重划选区开绿灯,中期选举有好戏了?
文学城新闻
切换到网页版

Claude 4.5重夺最强模型王冠:编码能力超越人类专家

腾讯科技 2025-11-25 20:18:05


11月25日凌晨,Anthropic发布了其迄今最强大的AI模型Claude Opus 4.5。该公司宣称,新模型在软件工程任务上实现了“最先进性能”,进一步加剧了其与OpenAI、谷歌等对手之间的竞争。

Claude Opus 4.5在Anthropic软件工程测试中表现出色,得分超越Gemini 3 Pro、GPT-5.1等一众对手。

图:Claude Opus 4.5在SWE Bench软件工程测试中的性能表现

公司数据显示,该模型在SWE-bench Verified(一项评估现实世界软件工程能力的基准测试)中达到了80.9%的准确率,表现超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及谷歌的Gemini 3 Pro(76.2%)。

同时,Anthropic大幅下调了这款模型的定价:输入token降至每百万5美元,输出token为每百万25美元,较前代产品Claude Opus 4.1(输入15美元/百万,输出75美元/百万)下降约三分之二。

降价使得尖端AI技术对广大开发者和企业更加触手可及,同时也给竞争对手带来了性能与价格的双重压力。

在现实任务中展现更优判断力

测试人员普遍反馈,新模型在各种任务中展现出更强的判断力与直觉。他们将这种进步描述为:模型开始领悟现实情境中的“关键所在”。

“这个模型好像突然‘开窍’了,”开发者关系负责人阿尔伯特表示,“它在处理许多现实问题时表现出的直觉和判断力,让人感觉相比前代模型实现了一次质的跨越。”

阿尔伯特以自身工作为例进一步说明:过去他仅利用AI收集信息,而对它们的整合与优先级排序能力持保留态度。如今,借助Opus 4.5,他已开始委托更完整的任务,通过连接Slack和内部文档,模型能生成与他预期高度契合的连贯摘要。

宾夕法尼亚大学沃顿商学院教授、生成式AI实验室联合主任伊桑·莫利克测试后评论道,新模型的能力确实处于技术前沿。其最显著的提升在于实际应用,例如跨软件操作(如用Excel制作PPT)。

在核心工程测试中超越所有人类工程师

Claude Opus 4.5在Anthropic内部一项高难度工程评估中创下了新纪录。这项评估本是公司为性能工程师岗位设计的限时编程测试,要求求职者在两小时内完成,旨在考察其技术能力与问题判断力。

Anthropic透露,通过采用“并行测试时计算”技术,即汇总模型的多次解题尝试并筛选最优结果,Opus 4.5的最终得分超越了所有曾参与该测试的人类工程师。

在不限时间的条件下,若在其专用编码环境Claude Code中运行,Claude Opus 4.5的解题表现更是与史上最高分的人类工程师持平。

不过该公司也坦言,这类测试无法衡量其他关键专业技能,例如团队协作、有效沟通,或是经年累月形成的专业直觉。

效率飞跃:核心基准测试token消耗大幅降低76%

除原始性能突破外,Anthropic更将效率提升视为Claude Opus 4.5的核心竞争力。新模型在达成相同甚至更优结果时,所需处理的计算token数量显著减少。

具体数据显示,在“中等”投入级别下,Opus 4.5可在SWE-bench Verified测试中达到与Sonnet 4.5相同的最高分,而输出token消耗量却大幅降低了76%。即便在“高”投入级别追求极限性能时,其表现比Sonnet 4.5再提升4.3个百分点,token使用量仍减少了近一半(48%)。

为赋予开发者更精细的控制权,Anthropic引入了全新的“投入”参数。用户可通过此参数,动态调节模型处理每个任务时所投入的计算工作量,从而在性能、响应速度和成本之间找到最佳平衡点。

GitHub首席产品官马里奥·罗德里格斯也证实了类似发现:“早期测试表明,Opus 4.5在token消耗减半的同时,性能仍超越了我们的内部编码基准,尤其在代码迁移与重构等复杂任务上表现尤为出色。”

阿尔伯特对此现象作出技术解读:Claude Opus 4.5并非直接更新其底层参数,而是在持续优化解决问题的工具与方法。“我们看到它在迭代精进任务技能,通过自主优化执行方式来提升最终效果,”他解释道。

这种自我进化能力已突破编程领域。阿尔伯特透露,在专业文档生成、电子表格处理和演示文稿制作等场景中,模型表现均有显著提升。

产品生态全面升级:深度集成Office与浏览器,突破对话长度限制

伴随新模型的发布,Anthropic同步推出了一系列面向企业场景的重要更新。

专为Excel设计的Claude功能现已向Max、Team及Enterprise用户全面开放,新增了对数据透视表、可视化图表及文件上传的完整支持。同时,Chrome浏览器扩展也已向全体Max用户开放使用。

本次更新最具革命性的当属“无限聊天”功能——该技术通过智能总结长对话中的早期内容,有效突破了传统上下文窗口的限制。“在Claude AI产品中,凭借我们创新的内容压缩与内存管理技术,用户实际上获得了近乎无限的对话效果,”阿尔伯特解释道。

面向开发者群体,Anthropic推出了更具工程价值的“程序化工具调用”能力,使得Claude能够直接编写并执行可调用外部函数的代码。同时,Claude Code不仅升级了“计划模式”,更以研究预览版形式推出了桌面客户端,首次支持开发者并行运行多个AI智能体会话。

三强竞逐加速,AI步入“自我进化”与盈利挑战并存新阶段

模型迭代速度正成为竞争焦点。

Opus 4.5距前代Haiku 4.5和Sonnet 4.5发布仅相隔数周,这折射出整个行业的加速态势。2025年间,OpenAI持续推出多个GPT-5变体,并于11月发布可自主运行24小时的Codex Max模型;谷歌也经过数月打磨,在11月中旬正式推出Gemini 3。

值得注意的是,Anthropic正利用AI技术反哺自身研发。阿尔伯特透露:“无论是产品构建还是模型研究,Claude本身都在为我们提供助力,显著加速了开发进程。”

面对价格战可能带来的利润压力,阿尔伯特持乐观态度:“降价将推动更多初创公司深度集成并主推我们的技术,从而扩大市场基础。”然而,尽管AI市场预计十年内将突破万亿美元规模,主要实验室在巨额投入计算设施与人才的同时,盈利之路依然漫长,尚未有任何供应商确立绝对主导地位。

对企业和开发者而言,这场竞赛正转化为持续提升的性能与不断下降的成本。但随着AI在专业技术任务上逼近甚至超越人类水平,其对各行业工作模式的颠覆已从理论探讨变为现实挑战。

谈及AI在工程测试中超越人类的表现,阿尔伯特坦言:“这无疑是一个值得高度重视的信号。”