简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 生活百态 » AI高考全卷评测结果:最高分303,数学全不及格

AI高考全卷评测结果:最高分303,数学全不及格

文章来源: 大河财立方 于 2024-06-19 02:20:44 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。

在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

大模型的高考“语数外”三科成绩结果(公开评测细节可访问https://github.com/open-compass/GAOKAO-Eval)

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。

对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。

实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。

在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。

语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。

  • 北美最大中英文保健网“母亲节特大酬宾”!美国专利[骨精华][心血通][益脑灵]健骨強心护脑,用过的都说好!
查看评论(4)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

李承鹏最新:致我们未来的生活—新世界多美丽
华人家庭灭门案震动社区 "尖子生"儿涉弑父母兄弟
韩团现身墨西哥总统府阳台 5万粉丝疯叫 全网看呆
两名中国前国防部长为何遭判死缓 杀鸡给猴看?
美伊停战恐生变?美股主要指数全收黑 油价下跌…


24小时讨论排行

两儿子卧轨自杀 华人作家写下至痛回忆 拿下普立兹奖
罕见!最高法院公开对拜登提名的大法官严厉批评
美法院裁定:川普对全球征“10%对等关税”无效
两任中国防长同判死缓 学者:真正原因可能是“泄密”
缅北四大家族覆灭之后,印度人开始入驻园区了
美贸易法院:特朗普10%的全球关税政策无效
中国男富士山挥五星旗拍抗日片 美大兵反制引热议
美国在联合国四处游说涉伊朗决议 中俄都有意见
这国“强暴节”全球傻眼!女大生当街惨遭猥亵
英国裁定2英籍华人为中国从事情报活动 召见中国大使
纽约市长向富人征税 房产大亨怒:令人作呕
可人传人,邮轮暴发疫情多人死亡!一文读懂汉坦病毒
美国为何有共产党议员?马克思诞辰日引爆争议
少女玩悬崖秋千坠亡!专家揭疑点:恐非“没绑紧”
为什么中国乒乓最近不行了?国乒被外协撞了“腰”
关键人物接连自杀,尹锡悦夫妇案有点神秘了
文学城新闻
切换到网页版

AI高考全卷评测结果:最高分303,数学全不及格

大河财立方 2024-06-19 02:20:44

高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。

在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

大模型的高考“语数外”三科成绩结果(公开评测细节可访问https://github.com/open-compass/GAOKAO-Eval)

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。

“现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大,但它很难在非常严肃的商业场合去落地。”林达华此前表示。

对于此次测试细节,上海人工智能实验室介绍,评测采用全国新课标I卷,“语数外”三科全卷测试,包括客观题与主观题。成绩由具备高考评卷经验的老师匿名人工判分,阅卷开始前,阅卷教师未被告知答卷均由模型生成,使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是,大模型犯错误的方式和人类考生有差异,从实践上来看阅卷老师们不完全适应给大模型评分,因此存在有题目误判的可能。实验室表示,每个题目都邀请了至少三位老师评阅取均分,团队对分差较大的题目还进行了再次审核,贴近高考真实阅卷标准。

实验室表示,在打分前,老师们并未被告知答案由大模型生成,但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题,老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况,团队会要求老师将离谱的错误直接视为答题错误,解析类型的回答以是否包含正确解题过程作为唯一准则。

在完成所有大模型答卷的评卷工作后,阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析,为模型能力提升策略提供参考。

语文方面,老师们认为,模型的现代文阅读理解能力普遍较强,但是不同模型的文言文阅读理解能力差距较大。大模型作文更像问答题,虽然有针对性但缺乏修饰,几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法 。多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”,大模型尚无法完全理解。

在数学试卷上,老师们发现,大模型的主观题回答相对凌乱,且过程具有迷惑性,甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强,但是无法在解题过程中灵活引用。

英语则整体表现良好,但部分模型由于不适应题型,在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况,而人类考生多因为字数不够扣分。

此外,一些老师提出,由于全部回答没有卷面,所以在作文的评判上会存在1-2分的误差。