原标题:生数科技发布视频大模型「Vidu」引关注清华团队国产Sora火了
【环球网科技综合报道】近日,生数科技联合清华大学发布了视频大模型「Vidu」,引发了广泛关注。
这一模型支持一键生成长达16秒、分辨率达1080p的高清视频内容,画面效果接近Sora,并且在多方面表现出色,包括镜头语言、时空一致性、物理模拟等方面,让人惊叹。
背后的团队仅用了两个月的时间就取得了这一突破。
与Sora的对标
在视频生成方面,「Vidu」与Sora进行了全面对标。
从视频长度、时空一致性、镜头语言、物理模拟等方面看,「Vidu」已经逼近了Sora的水平。
生成的视频长度达到了16秒,画面流畅,细节丰富,逻辑连贯,呈现出高度接近真实世界的效果。
镜头语言注入
在视频制作中,镜头语言是非常重要的概念,能够帮助表达故事情节、揭示角色心理、营造氛围等。
现有AI生成的视频在镜头语言方面往往表现单调,而「Vidu」则通过生成转场、追焦、长镜头等效果,成功注入了更加丰富的镜头语言,提升了视频的整体叙事感。
时空一致性保持
视频画面的连贯和流畅性取决于人物和场景的时空一致性。
「Vidu」在一定程度上克服了这一问题,保持了视频的连贯性和流畅性,展现出良好的时间、空间一致性,让观众体验更加真实。
模拟真实物理世界
「Vidu」能够模拟真实物理世界的运动,包括物体的移动和相互作用。
与Sora相比,「Vidu」在灰尘、光影等细节方面表现出色,接近真实世界的体验,展现出优秀的技术能力。
丰富的想象力与中国元素
「Vidu」不仅能生成现实世界中的画面,还能虚构出真实世界不存在的超现实主义画面。
此外,「Vidu」还能注入特有的中国元素,如熊猫、龙等,为视频内容增添了新意。
团队背景与技术路线
生数科技的团队来自清华大学人工智能研究院,致力于图像、3D、视频等多模态大模型领域的研究。
他们基于自研的U-ViT架构开发了「Vidu」,该架构融合了Transformer和Diffusion模型,展现出卓越的生成能力。
团队在多模态领域发表了多篇顶会论文,积累了丰富的研究经验。
生数科技通过「Vidu」展现了其在视频生成领域的创新能力和技术实力,为未来视频内容创作带来了更多可能性。
其快速突破和优秀表现也让人期待其未来的发展和应用。
国内新发布的AI视频生成模型“Vidu”引起了广泛关注,这款由生数科技与清华大学合作推出的产品,能够在一键操作下生成16秒长、1080p高清的视频内容
2024-04-27 22:48:06清华团队国产“Sora”火了近期,人工智能领域内的一起学术诚信事件引起了全球科技行业的密切关注。
2024-06-04 15:54:36斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队回应4月27日,中关村论坛未来人工智能先锋论坛举行期间,生数科技携手清华大学宣布了一个重要成果:中国首个长时长、高一致性、高动态性视频大模型Vidu正式面世
2024-04-28 18:58:48新模型Vidu直逼Sora近期,斯坦福大学AI团队推出的Llama3-V开源模型,被揭露抄袭了清华大学与面壁智能共同开发的“小钢炮”MiniCPM-Llama3-V 2.5模型,此事迅速在网络上引发了广泛讨论
2024-06-04 13:11:38斯坦福团队道歉近期,国产机器狗在中柬联合军事演习“金龙-2024”中亮相,引起了广泛讨论。这些机器狗的实战能力成为了关注焦点。其中一款机器狗重量约为15公斤,拥有2-4小时的续航能力,装备了先进的4D超广角感知系统
2024-05-26 22:48:34又火了!国产机器狗