清华团队国产"Sora"火了：16秒高清视频一键生成

小大

用微信扫描二维码
分享至好友和朋友圈

关键词：

2024-04-27 22:48:06 量子位

国内新发布的AI视频生成模型“Vidu”引起了广泛关注，这款由生数科技与清华大学合作推出的产品，能够在一键操作下生成16秒长、1080p高清的视频内容。Vidu的特别之处在于其生成的视频不仅时长显著，而且在画面连续性、镜头运用、时空一致性和物理规律模拟上接近国际顶尖水平Sora，甚至能创造出现实中不存在的超现实主义场景，这些都是当前大多数视频生成模型难以企及的。

在短短两个月内，Vidu的开发团队实现了这些技术突破。相较于同类技术，Vidu的视频不再是简单的动态图片延展，而是具备了丰富的镜头语言，如转场、追焦和长镜头效果，能够讲述连贯的故事，提升了视频的叙事性和观赏性。它在保持时间与空间一致性上的表现也颇为出色，使得视频中的动作和场景变换流畅自然，减少了以往AI生成视频中常见的叙事断裂和逻辑错误。

Vidu对真实物理世界的模拟也是其亮点之一，能够准确展现物体运动及其相互作用，如尘土飞扬、光影变化等，这些细节极大地增强了视频的真实感。更令人兴奋的是，Vidu能够想象并生成现实中不存在的场景，如画室中的帆船与海浪，以及“鱼缸女孩”这类超现实主题，为创意内容提供了无限可能，拓宽了艺术表达的界限。

此外，Vidu还展现了对中国元素的理解与应用，成功生成包含熊猫、龙、宫殿等特色场景的视频，展示了其文化适应性和多样性。

Vidu快速发展的“秘籍”在于选择了正确的技术路线和坚实的工程化基础。它基于自研的U-ViT架构，该架构融合了Transformer与Diffusion模型的优势，能够直接连续地从文本生成视频，避免了插帧和拼接带来的画面僵硬问题。同时，团队在图文任务中积累的经验和技术成果，如大规模训练的可扩展性和并行化训练策略，也加速了Vidu在视频生成领域的进步。

生数科技，这支拥有清华背景的团队，以其在多模态大模型领域的深厚研究基础和一系列学术成就，支撑起了Vidu的技术创新。他们不仅在国内外顶级会议上多次发表论文，提出的多项技术也被国际前沿机构采纳，显示出强劲的研发实力和行业影响力。自成立以来，生数科技凭借其在多模态大模型赛道的突出表现，获得了多家知名机构的投资，成为国内该领域估值领先的创业团队。

(责任编辑：张佳鑫)

关闭

清华团队国产"Sora"火了：16秒高清视频一键生成

相关新闻

今日热点

频道热点