高考,作为一项涵盖广泛学科和题型的考试,因其考前的高度保密性,被视为中国最具权威性的测试之一。近期,它成为了评估高级人工智能模型智力水平的重要工具。上海人工智能实验室的OpenCompass平台挑选了7个顶尖的人工智能模型,让它们参加了包括语文、数学、英语在内的全科目模拟高考。
测试结果于6月19日公布,阿里通义千问2-72B以303分的总分位居榜首,紧接着是OpenAI的GPT-4o,得分为296分,而上海人工智能实验室的书生·浦语2.0则获得第三名。这三个模型的得分均超过了70%的及格线,而法国初创公司Mistral的模型则排名最后。
参与这次测评的模型涵盖了国内外多家企业和机构,既有开源的也有如GPT-4o这样的闭源模型。值得注意的是,为了确保公平性,仅选取了在考前已公开的模型,避免了可能的针对性训练。
测试显示,尽管这些大模型在语文和英语科目中表现出色,但它们的数学成绩普遍不佳,无一及格。其中数学最高分75分出自书生·浦语2.0,GPT-4o紧随其后,得了73分。语文最高分归于通义千问,而英语则是GPT-4o领先。
数学成为大模型面临的一大挑战,它要求复杂的推理能力,这对于模型在金融、工业等领域实现可靠应用至关重要。上海人工智能实验室的领军人物林达华指出,复杂推理直接关联到模型在诸如金融场景中的数据准确性,以及处理专业文档时的精确计算能力,这些是当前大模型应用向更严肃商业环境扩展的障碍。
高考语文科目的考试已经落幕,通过对多地考生的采访反馈,普遍认为今年的试卷难度较为适中。考生们离开考场时的神情轻松愉快,笑容满面,显示出他们对考试表现的信心,几乎没有沮丧的迹象
2024-06-07 21:35:30考完数学老实了昨日,一场别开生面的线上祝福活动吸引了众多即将步入高考考场的学生们的注意。
2024-06-07 17:18:00祖冲之评论区变许愿池