世界模型,即通过预测未来的范式对数字世界和物理世界进行理解,是通往实现通用人工智能(AGI)的关键路径之一。在视频生成领域,OpenAI 发布的 Sora 引起了广泛关注,Sora 具有极强的仿真能力,可以展现出对物理世界的初步理解;视频生成领军企业 Runway 在技术博客中表示,文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动驾驶领域,Tesla 和 Wayve 均表示在利用世界模型的预测未来特性构建其端到端自动驾驶系统。在更广泛的通用机器人智能领域,LeCun 多次在演讲中表示对世界模型潜力的极大关注,并预言世界模型将会取代自回归模型成为新一代智能系统的基础。首先,视频生成世界模型是指利用世界模型技术来生成和编辑视频,以便理解和模拟真实世界的情景。通过这种方式,能够更好地了解和表达复杂的视觉信息,为艺术创作提供了全新的可能性。其次,自动驾驶世界模型是指利用视频生成和预测技术来创造和理解驾驶场景,并从这些场景中学习驾驶行为和策略,这对于实现端到端的自动驾驶系统具有重要意义。最后,智能体世界模型是指利用视频生成和预测技术在动态环境中建立智能体与环境的交互,与自动驾驶模型不同,智能体世界模型构建的是适用于各种环境和情境的智能策略网络;这些智能体可能是虚拟的,例如在游戏中控制角色的行为,也可能是实体的,例如控制机器人在物理世界中执行任务;通过这种方式,智能体世界模型为实现智能互动和智能控制提供了新的解决方案。视频生成领域首先,该综述按照时间顺序讨论介绍了近年来提出的代表性视频生成模型。在 2021 年之前,以 GAN 为基础的模型主导了视频生成领域。之后,基于自回归建模、扩散建模()和掩码建模的模型开始出现,并取得了更好的生成效果。以 GAN 为基础的模型将生成器和判别器网络进行对抗训练,使得生成的视频更加真实。扩散建模则将视频信号编码到隐空间,引入一个降噪过程来生成视频,通过在隐空间多步降噪从纯噪声中解码恢复出高质量视频。基于自回归建模的模型使用预测下一个视觉 Token 的方法,逐步生成下一个时间对应的视频内容,这种方法能够捕捉时间序列中的依赖关系,生成连贯和真实的视频。而掩码建模则通过在训练过程中对部分视觉信息进行遮挡,并逐步恢复出掩码区域,最终得到无掩码的清晰视频。
综上所述,近年来视频生成模型呈现出了多样化和创新化的发展趋势,不同的模型方法相继涌现并取得了令人瞩目的生成效果。Sora 是最近备受瞩目的视频生成模型,其技术方案依赖于扩散模型。由于 Sora 是闭源的,本综述的相关分析主要基于其技术报告。Sora 主要包括三个部分:压缩模型:该模型将原始视频在时间和空间上进行压缩,转换成隐空间的特征进行表示,并且有一个解码器可以将隐空间特征映射回原始视频。基于 Transformer 的扩散模型:与 DiT方法类似,该模型在隐空间中对含有噪声的视觉特征不断进行降噪处理。语言模型:使用大语言模型将用户的输入编码为详细的 promts,以此控制视频的生成。
用户评论