中华网 china.com

新闻

大模型“高考”考生数学都不及格 语文英语显优势,数学能力待加强

关键词:
2024-06-20 06:07:10  第一财经

高考,作为一项涵盖广泛学科和题型的考试,因其考前的高度保密性,被视为中国最具权威性的测试之一。近期,它成为了评估高级人工智能模型智力水平的重要工具。上海人工智能实验室的OpenCompass平台挑选了7个顶尖的人工智能模型,让它们参加了包括语文、数学、英语在内的全科目模拟高考。

测试结果于6月19日公布,阿里通义千问2-72B以303分的总分位居榜首,紧接着是OpenAI的GPT-4o,得分为296分,而上海人工智能实验室的书生·浦语2.0则获得第三名。这三个模型的得分均超过了70%的及格线,而法国初创公司Mistral的模型则排名最后。

参与这次测评的模型涵盖了国内外多家企业和机构,既有开源的也有如GPT-4o这样的闭源模型。值得注意的是,为了确保公平性,仅选取了在考前已公开的模型,避免了可能的针对性训练。

测试显示,尽管这些大模型在语文和英语科目中表现出色,但它们的数学成绩普遍不佳,无一及格。其中数学最高分75分出自书生·浦语2.0,GPT-4o紧随其后,得了73分。语文最高分归于通义千问,而英语则是GPT-4o领先。

数学成为大模型面临的一大挑战,它要求复杂的推理能力,这对于模型在金融、工业等领域实现可靠应用至关重要。上海人工智能实验室的领军人物林达华指出,复杂推理直接关联到模型在诸如金融场景中的数据准确性,以及处理专业文档时的精确计算能力,这些是当前大模型应用向更严肃商业环境扩展的障碍。

此次评测遵循全国新课标I卷的标准,全面考核了客观题与主观题,由具有高考阅卷经验的教师匿名评分。阅卷过程中,教师们并不知道回答来自AI模型,以确保评价的公正性。然而,大模型的错误模式与人类不同,这给教师评分带来一定挑战,故每题至少由三位教师评分并取平均值,对于评分差异大的题目还进行了复核。

阅卷完成后,教师们得知他们评分的对象实为AI模型,并受邀对模型的表现进行了综合分析,为未来模型的改进提供了方向。教师们的反馈揭示了模型在各个科目上的强项与不足:模型在现代文阅读理解上表现良好,但在文言文理解和作文创意表达上显现出局限;数学解题虽能记忆公式,却缺乏灵活运用;英语虽总体表现良好,但在特定题型和作文字数控制上仍有待提高。此外,由于电子文本的特性,作文评分可能存在细微的主观偏差。

(责任编辑:张蕾)
关闭

谁会是哈里斯的搭档 多位政要成热门人选

谁会是哈里斯的搭档2024-07-22 14:08:31

美国会迎来历史上首位女总统吗?哈里斯提名在望

美国会迎来历史上首位女总统吗2024-07-22 14:08:15

拜登退选如何影响选战?民主党“换将”迎挑战

拜登退选如何影响选战?2024-07-22 14:07:48

妈妈回应10岁儿子卖冰棍减肥

妈妈回应10岁儿子卖冰棍减肥2024-07-22 14:07:30

日防相木原稔今起访欧,同英意共同开发新战机计划有变数?

日防相木原稔今起访欧,同英意共同开发新战机计划有变数?2024-07-22 10:25:52

美国会迎来历史上首位女总统吗?哈里斯提名在望

美国会迎来历史上首位女总统吗2024-07-22 14:08:15

谁会是哈里斯的搭档 多位政要成热门人选

谁会是哈里斯的搭档2024-07-22 14:08:31

樊振东:之前强迫自己看乒乓球 现在也会从皇马的比赛中获取力量

樊振东:之前强迫自己看乒乓球 现在也会从皇马的比赛中获取力量2024-07-22 14:05:56

果然,美国政府还是有办法……

果然,美国政府还是有办法……2024-07-22 10:06:32

黑人选民也没底:美国还没准备好迎接一位女总统,遑论一位黑人女总统

黑人选民也没底:美国还没准备好迎接一位女总统,遑论一位黑人女总统2024-07-22 14:03:36

内塔尼亚胡访美与拜登会晤将按计划进行,具体时间未知

内塔尼亚胡访美与拜登会晤将按计划进行,具体时间未知2024-07-22 10:35:29

雷神公司测试“爱国者”雷达引导“标准6”导弹

雷神公司测试“爱国者”雷达引导“标准6”导弹2024-07-22 10:12:11

对师德失范零容忍就要刮骨疗毒 中国人民大学严正声明

对师德失范零容忍就要刮骨疗毒2024-07-22 14:02:46

美“罗斯福”号航母赴红海小心翼翼,在进入印度洋后明显放缓速度

美“罗斯福”号航母赴红海小心翼翼,在进入印度洋后明显放缓速度2024-07-22 10:38:26

为波音产导引头短缺,日本“爱国者”导弹生产计划被推迟

为波音产导引头短缺,日本“爱国者”导弹生产计划被推迟2024-07-22 10:12:32

创中国男网新纪录!张之臻世界排名升第31名 将开启奥运之旅

创中国男网新纪录!张之臻世界排名升第31名 将开启奥运之旅2024-07-22 14:01:03

惊人逆转!拜登从首轮辩论到宣布退选的24天,经历了什么?

惊人逆转!拜登从首轮辩论到宣布退选的24天,经历了什么?2024-07-22 14:00:04

泽连斯基:如果特朗普胜选,乌克兰只能……

泽连斯基:如果特朗普胜选,乌克兰只能……2024-07-22 10:08:14

董宇辉不希望和俞敏洪的感情被误会 内部管理受质疑

董宇辉不希望和俞敏洪的感情被误会2024-07-22 14:03:23

千里奔袭胡塞武装,以军要过几道坎?

千里奔袭胡塞武装,以军要过几道坎?2024-07-22 10:32:02

马斯克再出争议言论:借微软 Windows 蓝屏事件攻击 CrowdStrike 的“多元化”

马斯克再出争议言论:借微软 Windows 蓝屏事件攻击 CrowdStrike 的“多元化”2024-07-22 14:02:58

废弃它,连带报销了美军隐藏的算盘……

废弃它,连带报销了美军隐藏的算盘……2024-07-22 10:05:01

拜登退选如何影响选战?民主党“换将”迎挑战

拜登退选如何影响选战?2024-07-22 14:07:48

种地吧导演曾回应三四季规划 综艺发展与粉丝理性并行

种地吧导演曾回应三四季规划2024-07-22 14:00:54

硬核军校录取通知书大揭秘 青春召唤,梦想启航!

硬核军校录取通知书大揭秘2024-07-22 14:00:26

一觉醒来,美国发生历史性大事

一觉醒来,美国发生历史性大事2024-07-22 10:02:39

首次空袭也门,内塔尼亚胡:以色列长臂可触及任何地方

首次空袭也门,内塔尼亚胡:以色列长臂可触及任何地方2024-07-22 10:18:07

又扯“中俄威胁”?“美国将明文承诺会用核武器保护日本”

又扯“中俄威胁”?“美国将明文承诺会用核武器保护日本”2024-07-22 10:17:25

ATP汉堡站:菲斯击败兹维列夫,首夺500赛冠军 法国新星崛起

ATP汉堡站:菲斯击败兹维列夫,首夺500赛冠军2024-07-22 14:01:51

与台当局首次联演,“日本刻意低调”

与台当局首次联演,“日本刻意低调”2024-07-22 10:09:07

家族政治,印度持续千年的谜题

家族政治,印度持续千年的谜题2024-07-22 10:31:20

寻医广播一响一群浙大医学生冲了上去 列车上演急救温情剧

寻医广播一响一群浙大医学生冲了上去2024-07-22 14:00:13

首次亮相国际大型活动,解放军三桅帆船“破浪”号是怎样的存在?

首次亮相国际大型活动,解放军三桅帆船“破浪”号是怎样的存在?2024-07-22 14:05:27

沙利文称美国可能允许乌军用美国武器深入打击俄领土,俄外交官:美仍想给俄造成“战略失败”

沙利文称美国可能允许乌军用美国武器深入打击俄领土,俄外交官:美仍想给俄造成“战略失败”2024-07-22 10:37:56

冲突前线处境艰难,美欧援乌明显降温,内外压力涌向泽连斯基!

冲突前线处境艰难,美欧援乌明显降温,内外压力涌向泽连斯基!2024-07-22 10:22:08

相关新闻