智源研究院百模评测结果。2024年12月19日,智源研究院举办了一场秋冬评测发布会,其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献,并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距,但这场辩论展示了大模型的能力。
同一天,智源研究院发布了国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型的综合及专项评测结果。相比5月份的评测,此次新增了数据处理、高级编程和工具调用能力的任务,还首次增加了面向真实金融量化交易场景的应用能力评估,以及基于模型辩论的对比评估方式,以深入分析模型的逻辑推理、观点理解和语言表达能力。
此次评测发现,2024年下半年大模型发展呈现三个特点:一是厂商更注重提升大模型的综合能力和实用性;二是多模态模型迅速发展,新厂商和新模型不断涌现,而语言模型的发展逐渐放缓;三是大模型开源生态中出现了新的贡献者。
在文本、语音、图片、视频理解与生成方面,评测结果显示,国内头部语言模型在复杂场景任务中的表现仍落后于国际一流模型。字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主观评测中名列前茅,而在客观评测中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。
对于视觉语言多模态模型,虽然架构趋同,但表现各异。一些较好的开源模型在图文理解任务上缩小了与闭源模型的差距,但仍需提升长尾视觉知识和文字识别能力。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。
2024世界人工智能大会与人工智能全球治理高级别会议于7月4日在上海拉开帷幕。会上,百度的创始人、董事长兼CEO李彦宏进行了主题演讲,分享了他对当前人工智能领域发展的一些见解
2024-07-04 15:59:30李彦宏批“百模大战”:“卷模型”造成巨大的算力浪费2024年10月,vivo X200的发布成为科技界的一大亮点。这部手机融合了卓越性能、独特设计和多样功能,迅速吸引了消费者的关注。接下来,我们将深入分析vivo X200的各项特性
2024-10-15 14:17:50如何评价vivoX20010月23日,影视飓风MediaStorm发视频回应了关于vivo X200 Pro的眩光评测问题,并且买了两台零售版进行补测。他表示之前测试得出的结论是该手机的眩光表现是正常的。
2024-10-24 13:40:46影视飓风回应手机眩光评测争议今年上半年,奇瑞品牌在SUV市场占有率中拔得头筹,瑞虎家族对此贡献显著
2024-08-08 22:51:37试驾评测奇瑞瑞虎8L荣耀Magic7系列搭载了强大的YOYO智能体,通过一句话即可完成许多操作,如点奶茶、查询自动续费等。AI的强大不仅体现在这些便捷功能上,还表现在影像处理能力上
2024-11-11 19:46:13荣耀Magic7