1.Towards a Better Physical Representation
Published:
Rethinking physical representation in 3D vision beyond reconstruction and explicit simulation, toward interaction-driven and dynamics-aware understanding.
苏昊老师在China3DV的会议上以《THE ILLUSION OF PHYSICAL UNDERSTANDING》为主题给了一个talk,重点几乎完全的落在了模型对于真实物理世界的理解上——对于一个真实物理世界的理解,我们首先应该从交互开始。而在不少以重建和生成质量为导向的三维方法中,几何一致性仍然是核心目标,而对可干预物理属性的建模相对不足。如何使模型对真实的物理性质形成一个确切的认知应该会成为接下来一段时间的重点。
我们当然有办法去真实的“仿真”一个物理世界,例如AI4CFD的很多工作,试图用神经网络加速PINN以及PDE之类的求解,可以更高效地近似并求解物理场。类似的,崔兆鹏老师昨天在China3DV做了一个题为《物理先验引导的三维动态建模》的报告,其中介绍了《DiffWind: Physics-Informed Differentiable Modeling of Wind-Driven Object Dynamics》这样的一篇工作,借助对于风场的构建辅以Lattice Boltzmann Method物理约束,从而使建模场景与物理上的“场”发生一些更加真实的交互。但是在我看来,用一个显式的表达方式去构建物理的场,问题主要有二,其一在于对象过多,引力场、电场、磁场,尤其是场与场之间还会发生交互,复杂度太大。其二同样在于,显式地去构建一个场太重了,而这样的求解代价显然是我们所无法承受的。DiffWind代表了一条显式物理约束的路线,但这条路线未必能自然扩展到更一般的物理世界。
我们先区分一下三个概念,显式物理,物理偏置,数据驱动。显式物理指直接显式地建模出一个可以求解的场、PDE。物理偏置指引入一些相对universal的物理认识,比如守恒,对称。而数据驱动则在LatentSpace中形成潜在的动力学表征。
那么有没有什么办法更好的表征物理世界呢?根据Sutton的《The Bitter Lesson》的洞见,显式物理公式直接作为主导性先验,未必是通向通用物理表征的最佳路径。一个好的物理表征应该自然地从视频或者说对外部世界的感知中自然地生长出来,而不应该来源于人类的先验。那么问题便转换成为,我们怎么样去设计一个好的架构,可以正确地捕捉到数据本身携带的物理信息并形成一些抽象化的表征。这个问题应该目前也没有一个好的答案。
与其讨论“要不要物理公式”,不如讨论“什么层级的物理归纳偏置是必要的”。从机械的角度再去审视一下这个概念,如果各位学过流体力学、材料力学、理论力学或者大学物理的话,我想一个好的物理建模首先来自于一个足够好的抽象,比如刚体。那能不能先试着从刚体之间的交互(我想这已经足够复杂)逐渐开始,然后再进行更加深入一点的物理性质的捕捉。不妨先在工作中引入一些刚体的约束,只在重力场的约束下,从刚体之间的交互开始再逐步推广到更复杂的,流体。先从受限场景中的对象交互出发,在感知学习与必要物理偏置之间找平衡,而不是一开始就显式穷举整个物理世界。
对真实世界物理理解的研究,不应一开始就试图统一处理复杂连续介质与多场耦合;更可行的路径,是从接触驱动的交互建模开始,逐步向可变形体与流体扩展。
我想在攀爬通向World Model这座高山中,真实物理和时间维度始终是我们需要去跨越的两个关口,正如苏昊在China3DV的分享一样,“物理智能,在等待它自己的表征突破,找到它,是我们这一代3D Vision研究者,最重要的科学问题”