注册登录

中华网 china.com

新闻

国内国际社会体育专题军事财经滚动政务冬奥

智源研究院“百模”评测结果：字节跳动多项第一

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-12-23 13:57:58 腾讯新闻

智源研究院百模评测结果。2024年12月19日，智源研究院举办了一场秋冬评测发布会，其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献，并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距，但这场辩论展示了大模型的能力。

同一天，智源研究院发布了国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型的综合及专项评测结果。相比5月份的评测，此次新增了数据处理、高级编程和工具调用能力的任务，还首次增加了面向真实金融量化交易场景的应用能力评估，以及基于模型辩论的对比评估方式，以深入分析模型的逻辑推理、观点理解和语言表达能力。

此次评测发现，2024年下半年大模型发展呈现三个特点：一是厂商更注重提升大模型的综合能力和实用性；二是多模态模型迅速发展，新厂商和新模型不断涌现，而语言模型的发展逐渐放缓；三是大模型开源生态中出现了新的贡献者。

在文本、语音、图片、视频理解与生成方面，评测结果显示，国内头部语言模型在复杂场景任务中的表现仍落后于国际一流模型。字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主观评测中名列前茅，而在客观评测中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。

对于视觉语言多模态模型，虽然架构趋同，但表现各异。一些较好的开源模型在图文理解任务上缩小了与闭源模型的差距，但仍需提升长尾视觉知识和文字识别能力。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。

12 全文共 2 页下一页

关闭

日本球迷：全盛恒大亚洲无敌！中国男足受益发免费门票让中国人看球

全盛恒大亚洲无敌2025-01-07 10:18:25

军大衣不合身爷爷手写千字退货申请认真态度获网友点赞

军大衣不合身爷爷手写千字退货申请2025-01-07 10:18:12

NBA战力榜：雷霆超骑士登顶火箭升至第五

NBA战力榜,雷霆超骑士登顶2025-01-07 10:17:54

印度推迟太空对接实验需更多地面验证

印度推迟太空对接实验2025-01-07 09:44:37

布林肯刚到韩国，公调处多名官员被检举美访问时机引猜测

布林肯刚到韩国,公调处多名官员被检举2025-01-07 10:08:14

乌国防情报总局称已接收美援助的“哈泽德”无人机，意味着什么？

乌国防情报总局称已接收美援助的“哈泽德”无人机，意味着什么？2025-01-07 10:04:39

曼联6000万铁腰最后一传尽显求胜欲！每场必须这么踢，复兴就有望乌加特成中场明星

曼联6000万铁腰最后一传尽显求胜欲2025-01-07 10:09:44

特朗普前私人律师藐视法庭未提交所需文件和资产

特朗普前私人律师藐视法庭2025-01-07 09:44:15

官方通报女子吃包子称有甲醛索赔非市监局人员将依法处理

官方通报女子吃包子称有甲醛索赔2025-01-07 10:08:28

特朗普辟谣关税政策美股巨震市场情绪波动显著

特朗普辟谣关税政策美股巨震2025-01-07 09:56:42

腾讯、宁德时代：是一个错误企业否认军事关联

腾讯,宁德时代,是一个错误2025-01-07 10:04:13

2024大模型年度“标王”诞生！科大讯飞中标金额超2-6名之和断层领先市场

2024大模型年度标王诞生2025-01-07 10:11:57

特鲁多宣布辞职后，特朗普快速回应提及“美加合并说”

特鲁多宣布辞职后,特朗普快速回应2025-01-07 10:00:03

西藏地震周边5公里有7个村庄盼平安！

西藏地震周边5公里有7个村庄2025-01-07 10:06:24

NBA战力榜：雷霆超骑士登顶火箭升至第五

NBA战力榜,雷霆超骑士登顶2025-01-07 10:17:54

乌军突袭多所核电站

乌军突袭多所核电站2025-01-07 10:02:19

泰国文华律所谈王星失踪案进展家属展开营救

泰国文华律所谈王星失踪案进展2025-01-07 10:07:57

美国参议院邀请特朗普开会内阁提名待确认

美国参议院邀请特朗普开会2025-01-07 09:59:03

朝鲜试射新型高超音速中远程弹道导弹

朝鲜试射新型高超音速中远程弹道导弹2025-01-07 09:58:45

特朗普称华盛顿邮报报道不实假新闻再引争议

特朗普称华盛顿邮报报道不实2025-01-07 09:48:06

医生得甲流一周变病毒性肺炎病情恶化引关注

医生得甲流一周变病毒性肺炎2025-01-07 10:15:29

腾讯宁德时代回应被列入美国防部清单：是一个错误

腾讯宁德时代回应被列入美国防部清单2025-01-07 10:02:45

这些人避免食用腊八蒜

这些人避免食用腊八蒜2025-01-07 10:10:25

西藏那曲市尼玛县4.6级地震震源深度10千米

西藏那曲市尼玛县4.6级地震2025-01-07 10:15:10

我国冰雪旅游收入或超6300亿元冰雪热持续升温

我国冰雪旅游收入或超6300亿元2025-01-07 10:13:41

美欲将核威慑引入亚太

美欲将核威慑引入亚太2025-01-07 10:00:35

民众党号召八千新党员上街游行抗议司法不公

民众党号召八千新党员上街游行2025-01-07 10:06:36

军大衣不合身爷爷手写千字退货申请认真态度获网友点赞

军大衣不合身爷爷手写千字退货申请2025-01-07 10:18:12

贺希宁出战43分钟拿16分9板4助手感一般难救主

贺希宁出战43分钟拿16分9板4助2025-01-07 10:11:17

大反转！离岸人民币连续升穿7.34和7.33关口，发生了什么？特朗普关税政策不及预期

离岸人民币连续升穿7.34和7.33关口2025-01-07 09:57:06

乌官员称乌军控制区域扩大库尔斯克方向进展显著

乌官员称乌军控制区域扩大2025-01-07 09:47:13

尤文6000万巨星丑闻：1人带6应召女郎开房在走廊徘徊找不到房间球迷爆料引发热议

尤文6000万巨星丑闻2025-01-07 10:10:02

大范围降温形势确定江南干燥变湿雨雪待定冷空气与南支槽共同作用

大范围降温形势确定江南干燥变湿雨雪待定2025-01-07 10:11:39

车管所民警一次收几十元微信红包最后贪47万风腐同查整治见效

车管所民警一次收几十元微信红包2025-01-07 10:17:35

日本球迷：全盛恒大亚洲无敌！中国男足受益发免费门票让中国人看球

全盛恒大亚洲无敌2025-01-07 10:18:25

相关新闻

李彦宏批“百模大战”：“卷模型”造成巨大的算力浪费
2024世界人工智能大会与人工智能全球治理高级别会议于7月4日在上海拉开帷幕。会上，百度的创始人、董事长兼CEO李彦宏进行了主题演讲，分享了他对当前人工智能领域发展的一些见解
2024-07-04 15:59:30李彦宏批“百模大战”：“卷模型”造成巨大的算力浪费
业内评测东风猛士917
业内评测东风猛士917
2024-06-28 13:22:57业内评测东风猛士917
如何评价vivoX200 旗舰级新体验评测
2024年10月，vivo X200的发布成为科技界的一大亮点。这部手机融合了卓越性能、独特设计和多样功能，迅速吸引了消费者的关注。接下来，我们将深入分析vivo X200的各项特性
2024-10-15 14:17:50如何评价vivoX200
影视飓风回应手机眩光评测争议
10月23日，影视飓风MediaStorm发视频回应了关于vivo X200 Pro的眩光评测问题，并且买了两台零售版进行补测。他表示之前测试得出的结论是该手机的眩光表现是正常的。
2024-10-24 13:40:46影视飓风回应手机眩光评测争议
试驾评测奇瑞瑞虎8L 性能舒适安全新体验
今年上半年，奇瑞品牌在SUV市场占有率中拔得头筹，瑞虎家族对此贡献显著
2024-08-08 22:51:37试驾评测奇瑞瑞虎8L
荣耀Magic7 Pro影像评测 AI加持更出色
荣耀Magic7系列搭载了强大的YOYO智能体，通过一句话即可完成许多操作，如点奶茶、查询自动续费等。AI的强大不仅体现在这些便捷功能上，还表现在影像处理能力上
2024-11-11 19:46:13荣耀Magic7

今日热点

拜登称因为停电所以加州山火扑不灭承诺增援灭火力量

我国发现一起猴痘聚集性疫情疫情得到有效处置

广州棺材地铁口拆除4人被罚设计失误引争议

也门胡塞武装称袭击美国航母红海北部导弹攻击

频道热点

主编邮箱
网上不良信息举报电话：010-56177181

关于中华网 | 广告服务 | 联系我们 | 招聘信息 | 版权声明 | 豁免条款 | 友情链接 | 中华网动态
版权所有中华网