简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 焦点新闻 » 史上首次!AI vs 人类工作能力 结果对人类不太妙

史上首次!AI vs 人类工作能力 结果对人类不太妙

文章来源: 硬AI 于 2025-10-05 09:25:20 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数



巴克莱分析显示,顶尖AI模型已接近人类专家水平,Claude Opus 4.1获得47.6%胜率领先。AI在零售贸易等领域已超越人类,在软件开发等职业表现优异。更令人震惊的是,AI能力在15个月内提升3倍,呈线性增长趋势。预测未来12-24个月内AI将在大多数工作任务上全面超越人类专家。

OpenAI最新发布的GDPval-v0评测工具首次量化了AI在执行具有经济价值工作任务方面的能力,结果显示AI正迅速追赶甚至逼近人类专业人员水平。巴克莱表示,最先进的AI模型已在诸多职业任务中达到与人类专家相当的能力,并且这种能力提升速度正在加快。

此前文章写道,OpenAI最新发布了一款名为GDPval-v0的全新评估工具,涵盖美国GDP占比较大的九个商业领域中44个职业的约1300项具体工作任务,从法律文书到工程蓝图再到护理计划等真实工作交付成果。

结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。10月5日,据硬AI消息,巴克莱在最新研究报告中称,Anthropic的Claude Opus 4.1在与人类专家对比中取得47.6%的"胜利或平局"率,位居榜首。

巴克莱分析师认为,AI模型的"胜率"在过去15个月中线性提升约4倍,预计在未来12-24个月内AI将在大多数工作相关任务上超越人类。分析认为,这一突破为评估AI投资回报率提供了关键数据支撑。

  评测标准创新突破:模拟真实工作复杂性

据巴克莱研究报告,GDPval基准测试的核心创新在于其真实性和复杂性。

该评测由平均拥有超过14年行业经验的资深专业人士设计,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业的1230个专业任务。

与传统基准测试不同,GDPval的任务并非简单文本问答,而是包含参考文件和上下文的复杂场景,要求AI交付多样化成果,包括文档、幻灯片、图表和电子表格等。巴克莱指出,这种设计更贴近现实工作环境的复杂性。

评测采用盲测方式,由行业专家对AI和人类生成的工作成果进行排名,从难度、代表性、完成时间和整体质量等维度进行综合评估。

  AI性能接近人类专家水平

巴克莱分析显示,当前最先进的AI模型在多个领域已接近或达到人类专家水平。Claude Opus 4.1以47.6%的胜率领先,GPT-5-high紧随其后,达到38.8%,o3 high为34.1%。

从行业维度看,AI在零售贸易(56%胜率)、批发贸易(53%)和政府部门(52%)的表现超过人类专家,但在信息技术行业表现相对较弱(39%)。

职业层面上,AI在柜台和租赁文员(80%)、运输接收和库存文员(76%)以及软件开发人员(70%)任务中表现最佳,而在工业工程师(17%)和影视编辑(17%)任务中表现较差。

各模型表现出不同特点:Claude Opus 4.1在美学表现(格式和布局)方面表现出色,GPT-5在遵循指令和执行准确计算方面最为精准。

  能力提升速度惊人

巴克莱报告特别强调了AI能力提升的速度。

研报称,OpenAI模型在GDPval测试中的表现在15个月内提升了3倍以上,这种线性增长趋势表明AI很可能在短期内全面超越人类专家。

对GPT-5的失误分析显示,尽管该模型仍会犯一些灾难性错误(2.7%),但47.7%的失误被归类为"可接受但不佳",22.9%的情况下模型表现甚至优于人类。

巴克莱分析师认为,AI模型的原始智能,特别是GPT-5,已达到超越人类专家的水平。通过更多后期训练(微调、强化学习),AI全面超越行业专家的时代已为时不远。

本文来自微信公众号“硬AI”

  • 功效卓著,回头客众多!美国专利【骨精华】消除关节痛//骨质疏松;【心血通+益脑灵】强心护脑。
查看评论(5)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

空军一号从不睡觉!川普自曝原因 全场哄堂大笑
美股整夜大跳水!道琼狂泻近600点
重磅!移民上诉委员会将“自动驳回”案件 不审不听不解释
希拉里强硬发声:想战斗,就公开进行吧
第一批熬不过英国冬天的留学生,已经抑郁了…




24小时讨论排行

川普痛批美国选举制度是“全球笑柄” 要求出示身分证
陆媒:“万国来朝”,不代表中国终将“等到天下”
父亲去世后存款,儿子想取需先证明“我爸是我爸”?
“妄议党中央大政方针”,海南省委原常委倪强被“双开”
那些掀翻爱泼斯坦 让美国出丑的记者 值得被铭记
特朗普下场支持高市:她将赢得选举,下月来白宫
艾泼斯坦档案高层曝仇中对话 嘲笑习近平的学历
爬野山出事的孩子最小才4岁,“都是家长的问题”
直击北京商场黄金抢购潮 “长期投资 肯定赔不了钱!”
加4华裔青年涉持枪和爆炸物 原来正在研发这个…
台女澳洲租屋纠纷竟纵火撞人 一听判决崩溃打滚
“男子泼汽油烧伤前女友案”重审 凶手出庭时还笑
日本前驻华大使遭爆婚外与中国女子往来密切
特朗普突然转发李小龙视频:如果事情进展不顺利....
巴基斯坦首都爆炸已致31死 初判为“自杀式恐怖袭击”
爱泼斯坦死亡当晚神秘“橙色人影”进封锁区 TA是谁?
文学城新闻
切换到网页版

史上首次!AI vs 人类工作能力 结果对人类不太妙

硬AI 2025-10-05 09:25:20



巴克莱分析显示,顶尖AI模型已接近人类专家水平,Claude Opus 4.1获得47.6%胜率领先。AI在零售贸易等领域已超越人类,在软件开发等职业表现优异。更令人震惊的是,AI能力在15个月内提升3倍,呈线性增长趋势。预测未来12-24个月内AI将在大多数工作任务上全面超越人类专家。

OpenAI最新发布的GDPval-v0评测工具首次量化了AI在执行具有经济价值工作任务方面的能力,结果显示AI正迅速追赶甚至逼近人类专业人员水平。巴克莱表示,最先进的AI模型已在诸多职业任务中达到与人类专家相当的能力,并且这种能力提升速度正在加快。

此前文章写道,OpenAI最新发布了一款名为GDPval-v0的全新评估工具,涵盖美国GDP占比较大的九个商业领域中44个职业的约1300项具体工作任务,从法律文书到工程蓝图再到护理计划等真实工作交付成果。

结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。10月5日,据硬AI消息,巴克莱在最新研究报告中称,Anthropic的Claude Opus 4.1在与人类专家对比中取得47.6%的"胜利或平局"率,位居榜首。

巴克莱分析师认为,AI模型的"胜率"在过去15个月中线性提升约4倍,预计在未来12-24个月内AI将在大多数工作相关任务上超越人类。分析认为,这一突破为评估AI投资回报率提供了关键数据支撑。

  评测标准创新突破:模拟真实工作复杂性

据巴克莱研究报告,GDPval基准测试的核心创新在于其真实性和复杂性。

该评测由平均拥有超过14年行业经验的资深专业人士设计,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业的1230个专业任务。

与传统基准测试不同,GDPval的任务并非简单文本问答,而是包含参考文件和上下文的复杂场景,要求AI交付多样化成果,包括文档、幻灯片、图表和电子表格等。巴克莱指出,这种设计更贴近现实工作环境的复杂性。

评测采用盲测方式,由行业专家对AI和人类生成的工作成果进行排名,从难度、代表性、完成时间和整体质量等维度进行综合评估。

  AI性能接近人类专家水平

巴克莱分析显示,当前最先进的AI模型在多个领域已接近或达到人类专家水平。Claude Opus 4.1以47.6%的胜率领先,GPT-5-high紧随其后,达到38.8%,o3 high为34.1%。

从行业维度看,AI在零售贸易(56%胜率)、批发贸易(53%)和政府部门(52%)的表现超过人类专家,但在信息技术行业表现相对较弱(39%)。

职业层面上,AI在柜台和租赁文员(80%)、运输接收和库存文员(76%)以及软件开发人员(70%)任务中表现最佳,而在工业工程师(17%)和影视编辑(17%)任务中表现较差。

各模型表现出不同特点:Claude Opus 4.1在美学表现(格式和布局)方面表现出色,GPT-5在遵循指令和执行准确计算方面最为精准。

  能力提升速度惊人

巴克莱报告特别强调了AI能力提升的速度。

研报称,OpenAI模型在GDPval测试中的表现在15个月内提升了3倍以上,这种线性增长趋势表明AI很可能在短期内全面超越人类专家。

对GPT-5的失误分析显示,尽管该模型仍会犯一些灾难性错误(2.7%),但47.7%的失误被归类为"可接受但不佳",22.9%的情况下模型表现甚至优于人类。

巴克莱分析师认为,AI模型的原始智能,特别是GPT-5,已达到超越人类专家的水平。通过更多后期训练(微调、强化学习),AI全面超越行业专家的时代已为时不远。

本文来自微信公众号“硬AI”