大模型“高考”考生数学都不及格语文英语显优势，数学能力待加强

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-06-20 06:07:10 第一财经

高考，作为一项涵盖广泛学科和题型的考试，因其考前的高度保密性，被视为中国最具权威性的测试之一。近期，它成为了评估高级人工智能模型智力水平的重要工具。上海人工智能实验室的OpenCompass平台挑选了7个顶尖的人工智能模型，让它们参加了包括语文、数学、英语在内的全科目模拟高考。

测试结果于6月19日公布，阿里通义千问2-72B以303分的总分位居榜首，紧接着是OpenAI的GPT-4o，得分为296分，而上海人工智能实验室的书生·浦语2.0则获得第三名。这三个模型的得分均超过了70%的及格线，而法国初创公司Mistral的模型则排名最后。

参与这次测评的模型涵盖了国内外多家企业和机构，既有开源的也有如GPT-4o这样的闭源模型。值得注意的是，为了确保公平性，仅选取了在考前已公开的模型，避免了可能的针对性训练。

测试显示，尽管这些大模型在语文和英语科目中表现出色，但它们的数学成绩普遍不佳，无一及格。其中数学最高分75分出自书生·浦语2.0，GPT-4o紧随其后，得了73分。语文最高分归于通义千问，而英语则是GPT-4o领先。

数学成为大模型面临的一大挑战，它要求复杂的推理能力，这对于模型在金融、工业等领域实现可靠应用至关重要。上海人工智能实验室的领军人物林达华指出，复杂推理直接关联到模型在诸如金融场景中的数据准确性，以及处理专业文档时的精确计算能力，这些是当前大模型应用向更严肃商业环境扩展的障碍。

此次评测遵循全国新课标I卷的标准，全面考核了客观题与主观题，由具有高考阅卷经验的教师匿名评分。阅卷过程中，教师们并不知道回答来自AI模型，以确保评价的公正性。然而，大模型的错误模式与人类不同，这给教师评分带来一定挑战，故每题至少由三位教师评分并取平均值，对于评分差异大的题目还进行了复核。

阅卷完成后，教师们得知他们评分的对象实为AI模型，并受邀对模型的表现进行了综合分析，为未来模型的改进提供了方向。教师们的反馈揭示了模型在各个科目上的强项与不足：模型在现代文阅读理解上表现良好，但在文言文理解和作文创意表达上显现出局限；数学解题虽能记忆公式，却缺乏灵活运用；英语虽总体表现良好，但在特定题型和作文字数控制上仍有待提高。此外，由于电子文本的特性，作文评分可能存在细微的主观偏差。

(责任编辑：张蕾)

关闭

大模型“高考”考生数学都不及格 语文英语显优势，数学能力待加强

相关新闻

今日热点

频道热点

大模型“高考”考生数学都不及格语文英语显优势，数学能力待加强