2.From Video-based to Dynamics-based

Published:

Reflections on the transition from video-based to dynamics-based world models and the implications for physical representation in 3D vision research.


世界模型的目标不是重建一个视觉上完整的世界,而是学习一个足以支持预测、规划和决策的状态表征。因此,问题不应只是“世界模型应该基于 video 还是 3D”,而应是:什么样的观测输入能够诱导出足够好的动态状态表征?

从 Yann LeCun 的观点以及 Saining Xie 在播客中的讨论来看,他们似乎都倾向于认为 video-based world model 是一条更自然的路线:世界模型应从视频中学习,因为人类本身也是高度视觉化的智能体。或者说世界模型需要基于video——因为人是一个视觉动物。

Observation 1: 自然界绝大多数的哺乳动物都是双目动物。

Observation 1我们发现一个矛盾,双目意味着动物可以直接在一帧中获取其所需要的深度信息,所形成的认知是一种类似于3D的空间认知。但在互联网上的绝大多数的视频都是单目视频,本身不直接提供显式的深度信息。如果真实世界中的空间行为高度依赖深度线索,而互联网视频大多只是单目视频,那么世界模型究竟需要显式的 3D 输入,还是可以从 2D 视频中学习出足够好的空间状态?

Observation 2: 自然界有许多先天发育不全独眼的动物同样可以形成世界模型。许多动物并不依赖人类式的双目前视视觉,仍然能够完成导航、避障、捕食和交互等复杂行为。

那么由Observation 2,我们需要问一个问题:双目真的是我们所需要的吗?回答可能是否定的。那我们究竟需要的是什么?双目视觉说明,深度信息对动物的空间行为很重要;但它并不意味着世界模型必须显式构建完整的 3D 表征。单目视频虽然缺少同步双目视差,却仍然通过运动、遮挡、接触、形变和物体持续性提供了大量空间线索。

Hypothesis 3: 视频可以通过时间的维度去获取三维的空间和物理信息。

在单目视频中损失掉的空间信息可以通过时间上的流动得到对应的补偿。所以现在我们更需要的或许是流动的时间而不是静止的空间。而在时间中所携带的信息不只是空间的结构,还有物理上的互动,也许就是Hao Su所说的我们需要的物理表征。但是这样的物理表征应该是动态的。3D 几何可能是这个状态中的一部分,但如果缺少时间、运动和交互,它仍然只是静态的壳。真正有用的中间表征,应该是 geometry embedded in dynamics,而不是 isolated 3D reconstruction。

对 world model 来说,真正关键的也许不是显式 3D,而是能够预测未来状态和行动后果的动态表征。3D 是这种表征可能学习到的隐变量之一,但未必是最终目标。这也是为什么我从一开始倾向 video-based,到后来转向 3D-based,再到现在重新理解 video :video 本身并不天然优于 3D,而是因为它提供了时间、运动和交互这些学习 dynamics 所必需的信号。换句话说,video 是输入形式,3D 是可能的隐变量,而真正的目标,是学习一个可预测、可行动、可泛化的动态状态表征。