(33.网址)DeepMind-谷歌推出的新一代大规模基础世界模型

(33.网址)DeepMind-谷歌推出的新一代大规模基础世界模型

Genie 2是DeepMind推出的新一代大规模基础世界模型,仅凭一张图片生成长达1分钟的可交互3D游戏世界。Genie 2能模拟出物体交互、角色动画、物理效果等复杂动态,支持用键盘和鼠标进行操作。Genie 2具备长时间记忆功能,能记住且精确还原暂时离开视野的场景。Genie 2能实时创造符合逻辑的新场景内容,在长达一分钟的时间内保持整个世界的一致性。Genie 2的主要功能

(33.网址)DeepMind-谷歌推出的新一代大规模基础世界模型

基于图像生成3D世界: Genie 2能够根据单张图片生成一个可交互的3D游戏世界,提供长达1分钟的游戏体验。这一功能使得用户能够从静态图像中创造出动态的虚拟环境。

动作控制: Genie 2的模型能够响应键盘和鼠标输入的动作,识别并正确移动角色,提供更加真实的交互体验。

生成反事实场景: 基于同一个开始画面,Genie 2能够创造出多个不同的发展路径,为用户提供多样化的剧情发展和探索可能性。

长时间记忆: Genie 2能够记住暂时离开画面的场景,并在画面重新进入视野时精确还原,保持场景的连续性和一致性。

持续生成新场景: 在游戏过程中,Genie 2能够实时创造出符合逻辑的新场景内容,并保持世界的一致性。

多样化环境生成: Genie 2能够生成多种不同的观察视角,如第一人称视角、等距视角或第三人称驾驶视角,提供丰富的视觉体验。

3D结构创建: Genie 2能够创建复杂的3D视觉场景,提供深度和细节的虚拟环境。

物体属性与交互: Genie 2能够建模各种物体交互,例如气球爆裂、开门和射击炸药桶等,增强游戏的互动性和真实感。

Genie 2的技术原理

自回归潜变量扩散模型: Genie 2基于大规模视频数据集训练的自回归潜变量扩散模型,为生成高质量的3D环境提供了基础。

视频帧处理: 视频的潜变量帧首先基于自动编码器处理,再传递给一个大规模Transformer动态模型,确保了视频内容的高效处理和生成。

因果掩码训练: Transformer模型基于因果掩码进行训练,类似于大型语言模型所使用的掩码方式,提高了模型的预测能力和准确性。

自回归采样: 在推理阶段,Genie 2用自回归的方式进行采样,逐帧用单个动作和先前的潜变量帧生成新内容。

无分类器指导: 在动作控制中用无分类器指导(classifier-free guidance)提高动作的可控性,使得用户输入能够得到更精确的响应。

Genie 2的应用场景

智能体训练与评估: Genie 2创建的复杂虚拟环境,用于训练和测试AI智能体在模拟环境中的表现和决策能力,提升智能体的适应性和智能水平。

游戏开发: 游戏开发者可以利用Genie 2生成的动态世界,设计出更加丰富和互动的游戏内容,提升玩家的沉浸感和游戏体验。

模拟与训练: 在军事训练中模拟战场环境,或在教育中模拟历史事件,提供逼真的模拟体验,用于训练和学习。

机器人学习: Genie 2作为机器人训练的平台,模拟不同的环境和情况,帮助机器人学习如何在现实世界中导航和操作。

体验网址:Genie 2: A large-scale foundation world model – Google DeepMind

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

© 版权声明
THE END
喜欢就支持一下吧
点赞120 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容