另类AI评测标准走红。随着人工智能视频生成技术的发展,一个有趣的现象逐渐流行起来:每当有公司发布新的人工智能视频生成器时,总会有人用它来制作威尔·史密斯吃意大利面的视频。这不仅成了网络热梗,还成为了衡量新型AI视频生成器性能的一种非官方标准,检验其能否逼真地呈现威尔·史密斯狼吞虎咽吃面的画面。今年二月,威尔·史密斯本人也通过Instagram发布了一段模仿视频,亲自加入了这场网络狂欢。
“威尔·史密斯吃意大利面”只是2024年人工智能领域众多奇特非官方评测标准之一。此前,一位16岁的开发者开发了一个应用程序,让人工智能控制《我的世界》游戏,以此测试其建筑设计能力。同时,一位英国程序员创建了一个平台,让人工智能在“你画我猜”和“四子棋”等游戏中相互对战。
尽管存在更多学术化的性能测试,但这些略显怪异的测试却迅速走红。原因在于许多行业标准的人工智能基准测试对普通人来说过于晦涩难懂。企业经常标榜其人工智能在奥林匹克数学竞赛或博士级别难题中的解题能力,而大多数人使用聊天机器人只是为了聊天或回复电子邮件。
即使是行业内普遍采用的评测方法,也未必更有效或更具信息量。例如,“聊天机器人竞技场”允许任何网络用户对AI在特定任务上的表现进行评分,如创建网页应用程序或生成图像。然而,参与评分的用户往往不具有代表性,他们大多来自人工智能和科技行业,并且他们的投票基于个人偏好,难以捉摸。
像“四子棋”、“我的世界”和“威尔·史密斯吃面条”这类奇特的人工智能基准测试显然不是严谨的实证研究,甚至不具备普遍适用性。即使AI能够完美生成“威尔·史密斯吃面条”的视频,也不意味着它能很好地生成汉堡的图像。
这些另类的AI基准测试可能在短期内不会消失,因为它们不仅具有娱乐性,而且易于理解。未来几年,或许会有更多新奇的基准测试出现。
荣耀Magic7系列搭载了强大的YOYO智能体,通过一句话即可完成许多操作,如点奶茶、查询自动续费等。AI的强大不仅体现在这些便捷功能上,还表现在影像处理能力上
2024-11-11 19:46:13荣耀Magic7近期,上海人工智能实验室的官方微博分享了一则消息:司南评测体系OpenCompass启动了首次针对大模型的“语数外”高考全科目能力测评,使用的是全国新课标I卷作为测试基准
2024-06-20 06:07:28首个AI高考全卷评测结果发布Character.AI,一家以创新技术和个性化服务著称的AI聊天机器人公司,近期宣布与科技巨头谷歌达成了一项重要的合作协议
2024-08-04 14:10:53硅谷新潮流:创始人卖掉自己2024年10月,vivo X200的发布成为科技界的一大亮点。这部手机融合了卓越性能、独特设计和多样功能,迅速吸引了消费者的关注。接下来,我们将深入分析vivo X200的各项特性
2024-10-15 14:17:50如何评价vivoX200盼星星盼月亮,欧洲杯终于迎来了开赛以来的第一个冷门,作为夺冠热门球队之一的比利时,世界排名第三,坐拥卢卡库、德布劳内等大批球星,却不敌世界排名第48位的斯洛伐克
2024-06-23 13:55:50卢卡库另类领跑欧洲杯