![](https://src.caizhongshe.cn/10-5-5ee5ccce7ccfbb1a880d5705a7dd2b92.png)
财中社2月13日电 事件:
2025年2月10日,豆包大模型团队与北京交通大学、中国科学技术大学联合提出视频生成实验模型VideoWorld。不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,即可认知世界。
江海证券发表观点:
VideoWorld去掉语言模型,实现了统一执行理解和推理任务。
现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如,折纸、打领结等复杂任务,难以通过语言清晰表达。作为一种通用视频生成实验模型,VideoWorld去掉语言模型,实现了统一执行理解和推理任务。同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。尽管面向真实世界的视频生成和泛化仍存在很大挑战,视频生成依然可以成为一种通用的知识学习方法,并在现实世界充当思考和行动的“人工大脑”。目前,该项目代码与模型已开源。
VideoWorld模型架构上使用朴素的自回归模型实例化视频生成器,包含一个VQ-VAE编码器-解码器和一个自回归Transformer。
在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。模型架构上,团队使用朴素的自回归模型实例化视频生成器,它包含一个VQ-VAE编码器-解码器和一个自回归Transformer。编码器负责将视频帧(画面)转换为离散标记,Transformer在训练期间使用这些标记预测下一标记。在推理过程中,Transformer生成下一帧(画面)的离散标记,这些标记随后由解码器转换回像素空间。通过任务相关的映射函数,模型可将生成画面转换为任务执行动作。这让视频生成实验模型可在不依赖任何动作标签情况下,学习和执行具体任务。
VideoWorld模型压缩视觉变化,实现了更有效的视频学习。
通常,视频编码需要数百或数千个离散标记来捕捉每帧内的视觉信息,这导致知识被稀疏地嵌入标记中。VideoWorld引入了一个潜在动态模型(LatentDynamics Model, LDM),可将帧间视觉变化压缩为紧凑的潜在编码,提高模型的知识挖掘效率。通过引入LDM,VideoWorld在仅有300M参数量下,达到专业5段的9x9围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器人任务上,VideoWorld也展现出了对多任务、多环境的泛化能力。
如果您有新闻线索,请联系我们:newsroom@caizhongshe.cn
重要提示:本文仅代表作者个人观点,并不代表财中社立场。本文著作权归财中社所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至czs@caizhongshe.cn。