微软的研究团队最近在国际顶级学术期刊Nature上发表了一项新成果,名为Muse的视频游戏生成模型。该模型基于近七年的游戏数据进行训练,参数量最高达到16亿,能够理解游戏中的物理和3D环境,并生成玩家动作及视觉效果。不过,目前它仅能以300×180像素的分辨率生成游戏画面。
Muse生成的游戏视频效果保持了一致性、多样性和持久性。这意味着它可以生成长达两分钟的一致游戏序列,提供不同摄像机移动角度、角色和游戏工具的多样性,并支持开发者添加新元素并自动融入画面。这项工作由微软研究员游戏智能团队、可教的AI体验团队与Xbox Games Studios旗下的Ninja Theory合作完成。
为了让更多开发者体验这项技术,微软开源了权重和样本数据,并提供了可视化交互界面WHAM Demonstrator。开发者可以在Azure AI Foundry上学习和试验这些资源。Xbox也在考虑利用Muse为用户构建简短的交互式AI游戏体验,即将在Copilot Labs上试用。
Muse在7Maps数据集上进行了训练,每张图像被编码为540个Tokens,数据量相当于七年多的人类游戏时间。此外,还有较小规模的数据集用于特定地图上的训练。通过提示模型使用10个初始帧(1秒)的人类游戏和整个游戏序列的控制器动作,可以生成多个可能的延续图像。用户还可以浏览生成的序列并进行调整,例如使用游戏控制器指导角色行动,这展示了Muse如何将迭代作为创作过程的一部分。
研究人员总结了27名从事游戏开发的创意人员的意见,确定了模型需要具备一致性、多样性和持久性三大能力。一致性使得生成的序列随时间推移并与游戏机制保持一致;多样性允许模型产生大量不同的序列,反映不同的潜在结果;持久性则使用户对游戏视觉效果和控制器动作进行修改,并将其同化到生成的游戏序列中。
北京时间1月28日凌晨,农历新年前夕,中国人工智能初创公司DeepSeek在GitHub和Hugging Face上发布了多模态大模型Janus-Pro,进军文生图领域
2025-01-29 04:29:50DeepSeek文生图新模型优于OpenAI