近期,一场针对大模型的全面评测活动吸引了众多关注。北京智源研究院发布的评测结果显示了140余种语言及多模态大模型的能力,这些模型覆盖了开源与商业闭源领域,旨在通过详尽的评估为公众揭示各模型的性能与易用性差异。
此次评测的一大亮点是,智源研究院与北京海淀教委合作,首次对大模型进行了K12学科测试,这一举措对把握大模型当前的发展状况及潜在应用价值具有重要意义。评测显示,尽管部分模型在综合学科能力上展现出较高水平,但仍与海淀学生平均表现存在一定差距,尤其是在理科科目和图表理解能力上暴露出弱点,显示出大模型在教育领域的应用还有待加强。
在语言模型方面,评测从多方面考察了模型的简单理解至安全价值观等能力,结果显示,字节跳动的豆包Skylark2与OpenAI的GPT-4在中文语境下表现突出,体现了国内大模型对本土用户的深刻理解。多模态模型评测则聚焦于图文理解与生成能力,展示了如OpenAI DALL-E3在文生图领域的领先地位,以及OpenAI Sora在文生视频中的显著优势。值得注意的是,国产模型如爱诗科技的PixVerse也在文生视频评测中取得了优异成绩,表明国产大模型正逐步缩小与国际先进水平的差距。
智源研究院院长王仲远强调,多模态模型仍处于初级发展阶段,现有评测标准与方法需伴随技术进步持续更新。他指出,未来多模态模型将趋向与语言模型融合,要求模型不仅具备高水准的生成能力,还需掌握世界的运行规律及科学原理,评测体系亦需随之快速演进。
关于大模型在教育行业的应用潜力,王仲远表示,K12学科测试并非直接服务于教育行业,而是作为检验模型跨学科能力的一种手段,有助于辨识模型在特定领域的适用性,如数理化能力强的模型可能更适合应用于材料科学或医疗领域。
综观评测,尽管大模型在多个领域展现出了令人瞩目的成就,但其发展和完善之路依旧漫长,特别是在实现真正意义上的多模态理解和生成上,以及如何更贴近人类认知逻辑上,均有待进一步探索和突破。
近日,斯坦福大学AI团队开发的Llama3-V开源模型,被指涉嫌抄袭清华大学与面壁智能合作的开源模型“小钢炮”MiniCPM-Llama3-V 2.5,此事件迅速在网络上引发了广泛关注和讨论。
2024-06-04 16:32:19斯坦福AI项目作者对抄袭中国大模型致歉