简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » GPT-5.2获封“最强打工人” Gemini“性价比”系列应战

GPT-5.2获封“最强打工人” Gemini“性价比”系列应战

文章来源: 钛媒体APP 于 2025-12-12 21:49:13 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


图片由AI生成

“我从未像现在这样对我们的研发和产品路线图,以及实现我们使命的整体方向感到如此乐观。”

12月12日,在正式上线GPT-5.2的同时,OpenAI CEO萨姆·奥尔特曼(Sam Altman)发布了一篇十周年纪念文章中这样说。

他极力向外界展现着自己依旧自信的一面。毕竟,虽然GPT大模型和ChatGPT聊天机器人至今仍是当前AI大潮的造浪者,但想必此刻,奥尔特曼感受到的竞争压力堪称空前。

今年以来,DeepSeek、Grok、Claude等竞争者的强势追赶,尤其是谷歌上个月推出的Gemini 3大放异彩,都将AI大模型竞争推上了更新的高度。

最近,奥尔特曼先是在内部备忘录中提示员工,需要接受最好的大模型不出自家之手的事实,继而,又发出公司首个“红色警报”,强调“立即行动,集中所有资源夺回领先地位”。

截图来自社交平台X

只有更强大的产品,才能支撑自信的底气。

在十周年纪念日这天,OpenAI重磅发布预热了一周多的GPT-5.2,评测表现再次反超所有竞争对手。

但谷歌不甘示弱,几乎在同一时间发布了新品,让这场大模型之争的战况再次升级。

GPT-5.2获评“最强AI打工人”,但“工资”很高

GPT-5.2此次仍然“全线出击”,一次性发布了Instant、Thinking和Pro三款不同层级的模型。

近一个月前Gemini 3发布时,其评测得分几乎“碾压”GPT-5的表现引发市场巨大关注。

而这次,根据OpenAI发布的基准测试结果,GPT-5.2实现了全面反超,其Thinking模型基准测试得分均高于Gemini 3 PRO和Anthropic的Claude Opus 4.5。

其中,GPT-5.2在博士级别的专家推理评估GPQA Diamond得分高达92.4%,相比GPT-5.1 Thinking的88.1%和Gemini 3 PRO刚刚刷出的91.9%高分再进一步。在不用工具的情况下,GPT-5.2在最新美国数学邀请赛(AIME2025)中拿到了满分。

OpenAI尤其强调了GPT-5.2在专业工作方面的领先地位,称其Thinking模型是“目前最能够胜任现实中各类专业用途的模型”。

在用于评估专业型技能的GDPval测试中,该模型得到了70.9%的高分,比GPT-5.1 Thinking高了足足32.1%,领先Gemini 3 PRO有17.4%。此外,对比尤其擅长编程等企业工作,此前在该评估中更胜一筹的Claude Opus 4.5,OpenAI的新品也高出了11.3%。

图片来自OpenAI

OpenAI给出的案例演示中,GPT-5.2聚焦了制作表格、整理分析数据、制作项目流程图等十分落地的现实工作场景。

公司还表示,新模型在编写代码、制作PPT、图像感知、理解长上下文、使用工具、处理复杂的多步骤项目方面都表现出色,而且错误率较前代产品大大减少。

模型发布后,GPT-5.2在实际工作场景中的表现也确实获得了不少赞许,一些使用者给予了其“最强AI打工人”“职场最佳拍档”等称号。

不过,这个“打工人”的“高工资”可能会成为问题。

数据显示,在输入输出价格方面,GPT-5.2要比前代贵了40%,输入价格21美元,输出价格高达168美元。

这再次引发了一些担忧,此前,OpenAI对算力发展大模型的做法已经受到质疑,无论是DeepSeek还是Gemini,似乎都证明着AI应用可以采取更具性价比的模式。

如果再考虑市场对以OpenAI和英伟达等引领的资本支出狂潮,以及市场对泡沫焦虑的警惕,GPT-5.2是靠算力“硬怼”实现的反击,那这显然对奥尔特曼来说,也是个隐忧。

可以看到的是,一些用户在吐槽Thinking和PRO的应答时间明显较慢,比其前代产品还要慢。而对于逐渐嵌入日常生活、工作的AI产品来说,机会成本和效率显然已愈发重要。

普通即时版GPT-5.2仍然在一些常识问题上犯错,也引发了一些用户玩梗吐槽。

当然,OpenAI的动作还没有结束。奥尔特曼表示,下周,会继续给用户带来“小圣诞礼物”,ChatGPT的“成人模式”也预计将于明年一季度面世。

谷歌给OpenAI扔了个炸弹,提前1小时抢发Gemini Deep Research

OpenAI的劲敌们,早已准备好子弹,回击这次GPT的重要更新。

谷歌抢在GPT-5.2前一个小时左右进行了产品更新,称其深度研究智能体Gemini Deep Research全面增强,并首次向开发者开放,再次引发了关注,试图不让OpenAI独占“头条”。

据谷歌介绍,Gemini Deep Research基于Gemini 3 PRO构建,通过多步强化学习训练,显著减少“幻觉”,在复杂研究任务中表现出更高精度。

在人类终极大考(HLE)中,Gemini Deep Research得到46.4%分,比GPT-5.2 Thinking的45.5%要高,仅低于GPT-5 Pro的50%。

图片来自谷歌

但是,其更大的优势在成本极低,谷歌产品经理透露,新版智能体在与GPT-5 Pro表现相当的同时,成本仅为后者的十分之一左右,展现出强大的性价比优势。

相对于OpenAI,更好的性价比、另辟蹊径的训练模式、公司的现金流、自研专用芯片等,都是谷歌“逆袭”叙事的核心。

如今,在大模型比拼性能的同时,谷歌的核心优势仍在继续,这也持续为OpenAI带来压力。

此外,为科学评估研究型智能体的能力,谷歌还同步开源了基准测试工具DeepSearchQA,包含覆盖17个领域的900项复杂任务。

当然,GPT-5.2未必是奥尔特曼捍卫大模型王座的杀手锏。

此前有消息称,OpenAI在加速开发自身全新的模型“Garlic”,致力于通过新的方式重建绝对领先的优势。谷歌、Anthropic显然还会继续拿出更好的产品。而Meta和DeepSeek等竞争者也同样有着令人期待的新品可能面世。

大模型浪潮的另一大赢家英伟达,最近与美银举办了一次投资者线上交流会。英伟达方面提到,只依据Gemini 3的表现比GPT5更优,就认为谷歌自研的TPU要好于英伟达的GPU是不合理的。

尤其目前大部分的大模型都是用上一代H系列芯片训练的,用Blackwell训练的大模型要到2026年才会上线,其优势到时才会显现,更不用说还未投入使用的新一代超级芯片Rubin。

市场对英伟达的说法看法不一,有观点认为模型强大与否与芯片代际不直接挂钩,也有观点认为更关键的还是性价比问题。不过,不管怎样,英伟达的说法已让明年的大模型之争看起来更值得期待了。

2025年年末之际,AI大模型之战和AI芯片之战的战局,都变得更加刺激,2026年,想必战况还会继续升级。这场战事不仅是大模型能力之争,更是关系到大模型的训练、发展路径,以及AI芯片的未来之战。

  • 北美最大中英文保健网“母亲节特大酬宾”!美国专利[骨精华][心血通][益脑灵]健骨強心护脑,用过的都说好!
查看评论(0)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

NASA科学家三度死而复生,三进三出「意识空间」
华女与富豪上床后威胁曝光 获650万仍不够 要分12亿
中国顶尖科学家离奇死亡 武大遥感专家柯涛48岁猝死
他68岁病逝:作品吓坏全世界 成无数人童年阴影
美拟取消外国出生12人公民身分 包括原籍中国伊朗等地






24小时讨论排行

CNN访问郑丽文:“台湾不想成为下一个乌克兰”
美议员“痛心”:美国在中东烧钱,给中国送礼
调查:欧洲人对美信任度锐减,但中国不是替代选项?
脱离实际的报价遭冷遇,世界杯中国转播费腰斩
中国2任防长同日判死!军报:绝不能对党怀二心
飞机曾高速翻滚360度 东航空难更多黑盒数据曝光
美伊再次无法就停战达成共识,油价应声上涨
川普将就伊朗议题对习近平施压 聚焦石油与稀土…
伊朗战争变台海预演?CNN:美中都在重新学打仗
停火日互控开火 普京喊将“终战” 震撼发言曝光
女星求法院允许安乐死引关注 称承受多年痛苦
拒绝伊朗结束战争回应 川普:完全无法接受
FBI解密UFO档案 惊曝“矮小太空人”走下飞碟
伊朗最强底牌曝光!专家:海峡战略价值更胜核武
我正在去巴勒斯坦,急需律师和使馆援助!
川普访北京倒数:不住“御用饭店”?下榻地点成谜
文学城新闻
切换到网页版

GPT-5.2获封“最强打工人” Gemini“性价比”系列应战

钛媒体APP 2025-12-12 21:49:13


图片由AI生成

“我从未像现在这样对我们的研发和产品路线图,以及实现我们使命的整体方向感到如此乐观。”

12月12日,在正式上线GPT-5.2的同时,OpenAI CEO萨姆·奥尔特曼(Sam Altman)发布了一篇十周年纪念文章中这样说。

他极力向外界展现着自己依旧自信的一面。毕竟,虽然GPT大模型和ChatGPT聊天机器人至今仍是当前AI大潮的造浪者,但想必此刻,奥尔特曼感受到的竞争压力堪称空前。

今年以来,DeepSeek、Grok、Claude等竞争者的强势追赶,尤其是谷歌上个月推出的Gemini 3大放异彩,都将AI大模型竞争推上了更新的高度。

最近,奥尔特曼先是在内部备忘录中提示员工,需要接受最好的大模型不出自家之手的事实,继而,又发出公司首个“红色警报”,强调“立即行动,集中所有资源夺回领先地位”。

截图来自社交平台X

只有更强大的产品,才能支撑自信的底气。

在十周年纪念日这天,OpenAI重磅发布预热了一周多的GPT-5.2,评测表现再次反超所有竞争对手。

但谷歌不甘示弱,几乎在同一时间发布了新品,让这场大模型之争的战况再次升级。

GPT-5.2获评“最强AI打工人”,但“工资”很高

GPT-5.2此次仍然“全线出击”,一次性发布了Instant、Thinking和Pro三款不同层级的模型。

近一个月前Gemini 3发布时,其评测得分几乎“碾压”GPT-5的表现引发市场巨大关注。

而这次,根据OpenAI发布的基准测试结果,GPT-5.2实现了全面反超,其Thinking模型基准测试得分均高于Gemini 3 PRO和Anthropic的Claude Opus 4.5。

其中,GPT-5.2在博士级别的专家推理评估GPQA Diamond得分高达92.4%,相比GPT-5.1 Thinking的88.1%和Gemini 3 PRO刚刚刷出的91.9%高分再进一步。在不用工具的情况下,GPT-5.2在最新美国数学邀请赛(AIME2025)中拿到了满分。

OpenAI尤其强调了GPT-5.2在专业工作方面的领先地位,称其Thinking模型是“目前最能够胜任现实中各类专业用途的模型”。

在用于评估专业型技能的GDPval测试中,该模型得到了70.9%的高分,比GPT-5.1 Thinking高了足足32.1%,领先Gemini 3 PRO有17.4%。此外,对比尤其擅长编程等企业工作,此前在该评估中更胜一筹的Claude Opus 4.5,OpenAI的新品也高出了11.3%。

图片来自OpenAI

OpenAI给出的案例演示中,GPT-5.2聚焦了制作表格、整理分析数据、制作项目流程图等十分落地的现实工作场景。

公司还表示,新模型在编写代码、制作PPT、图像感知、理解长上下文、使用工具、处理复杂的多步骤项目方面都表现出色,而且错误率较前代产品大大减少。

模型发布后,GPT-5.2在实际工作场景中的表现也确实获得了不少赞许,一些使用者给予了其“最强AI打工人”“职场最佳拍档”等称号。

不过,这个“打工人”的“高工资”可能会成为问题。

数据显示,在输入输出价格方面,GPT-5.2要比前代贵了40%,输入价格21美元,输出价格高达168美元。

这再次引发了一些担忧,此前,OpenAI对算力发展大模型的做法已经受到质疑,无论是DeepSeek还是Gemini,似乎都证明着AI应用可以采取更具性价比的模式。

如果再考虑市场对以OpenAI和英伟达等引领的资本支出狂潮,以及市场对泡沫焦虑的警惕,GPT-5.2是靠算力“硬怼”实现的反击,那这显然对奥尔特曼来说,也是个隐忧。

可以看到的是,一些用户在吐槽Thinking和PRO的应答时间明显较慢,比其前代产品还要慢。而对于逐渐嵌入日常生活、工作的AI产品来说,机会成本和效率显然已愈发重要。

普通即时版GPT-5.2仍然在一些常识问题上犯错,也引发了一些用户玩梗吐槽。

当然,OpenAI的动作还没有结束。奥尔特曼表示,下周,会继续给用户带来“小圣诞礼物”,ChatGPT的“成人模式”也预计将于明年一季度面世。

谷歌给OpenAI扔了个炸弹,提前1小时抢发Gemini Deep Research

OpenAI的劲敌们,早已准备好子弹,回击这次GPT的重要更新。

谷歌抢在GPT-5.2前一个小时左右进行了产品更新,称其深度研究智能体Gemini Deep Research全面增强,并首次向开发者开放,再次引发了关注,试图不让OpenAI独占“头条”。

据谷歌介绍,Gemini Deep Research基于Gemini 3 PRO构建,通过多步强化学习训练,显著减少“幻觉”,在复杂研究任务中表现出更高精度。

在人类终极大考(HLE)中,Gemini Deep Research得到46.4%分,比GPT-5.2 Thinking的45.5%要高,仅低于GPT-5 Pro的50%。

图片来自谷歌

但是,其更大的优势在成本极低,谷歌产品经理透露,新版智能体在与GPT-5 Pro表现相当的同时,成本仅为后者的十分之一左右,展现出强大的性价比优势。

相对于OpenAI,更好的性价比、另辟蹊径的训练模式、公司的现金流、自研专用芯片等,都是谷歌“逆袭”叙事的核心。

如今,在大模型比拼性能的同时,谷歌的核心优势仍在继续,这也持续为OpenAI带来压力。

此外,为科学评估研究型智能体的能力,谷歌还同步开源了基准测试工具DeepSearchQA,包含覆盖17个领域的900项复杂任务。

当然,GPT-5.2未必是奥尔特曼捍卫大模型王座的杀手锏。

此前有消息称,OpenAI在加速开发自身全新的模型“Garlic”,致力于通过新的方式重建绝对领先的优势。谷歌、Anthropic显然还会继续拿出更好的产品。而Meta和DeepSeek等竞争者也同样有着令人期待的新品可能面世。

大模型浪潮的另一大赢家英伟达,最近与美银举办了一次投资者线上交流会。英伟达方面提到,只依据Gemini 3的表现比GPT5更优,就认为谷歌自研的TPU要好于英伟达的GPU是不合理的。

尤其目前大部分的大模型都是用上一代H系列芯片训练的,用Blackwell训练的大模型要到2026年才会上线,其优势到时才会显现,更不用说还未投入使用的新一代超级芯片Rubin。

市场对英伟达的说法看法不一,有观点认为模型强大与否与芯片代际不直接挂钩,也有观点认为更关键的还是性价比问题。不过,不管怎样,英伟达的说法已让明年的大模型之争看起来更值得期待了。

2025年年末之际,AI大模型之战和AI芯片之战的战局,都变得更加刺激,2026年,想必战况还会继续升级。这场战事不仅是大模型能力之争,更是关系到大模型的训练、发展路径,以及AI芯片的未来之战。