本文首发地址 https://h89.cn/archives/575.html

开场:视觉逼真不等于物理正确

Sora、Veo 这类视频生成模型在画面质量上已经接近真实拍摄,但把它们用在机器人系统里,问题立刻暴露:

  • 机械臂直接穿透物体
  • 抓取器在未接触时就"吸附"了目标
  • 刚性部件在交互中发生形变

这些违反物理规律的现象,人类一眼就能看出来,但模型往往学不稳。原因不只是数据里缺少这类约束,也因为常规视频生成目标并不会显式惩罚这类错误。

这就是视频生成模型面临的核心矛盾:视觉美学与物理真实性的脱节。ABot-PhysWorld 针对的就是这个问题。


架构概览:14B 参数的物理感知 Diffusion Transformer

ABot-PhysWorld 基于 140亿参数的 Diffusion Transformer(Wan2.1-I2V-14B),通过四个方向解决物理对齐问题:

数据筛选:基于约 300 万条操控视频片段构建训练数据,补充物理监督信号。

物理偏好对齐:传统 SFT 无法惩罚物理违规,团队引入 VLM 判别器和 Diffusion-DPO 机制。

动作条件生成:通过并行上下文块和空间动作图谱,在注入动作指令的同时保留预训练知识。

评测体系:EZSbench 通过解耦双模型评测,验证分布外泛化能力。

下面逐个拆解。


一、数据:精选而非堆砌

通用视频数据的问题在于缺少物理约束。网上的短视频、影视素材里,摩擦、碰撞、接触动力学这些机器人操控特有的物理现象几乎不存在。机械臂抓取、物体倾倒、滑动堆叠这类场景本身就少,带动作标注的更是稀缺。

ABot-PhysWorld 的训练数据来自 AgiBot、RoboMimic、OXE 等五个公开具身数据集,规模约 300 万条真实操控视频片段,覆盖多种任务、场景和物体类别。

关键在于physics-aware annotation。论文强调这类标注不只描述“机器人做了什么”,还要尽量保留与轨迹、接触关系、物体状态变化有关的信息,让模型学到“为什么会这样”,而不只是“看起来像这样”。


二、物理偏好对齐:DPO 怎么用到视频生成

传统 SFT 的局限

标准的监督式微调(SFT)采用最大似然目标,对所有样本一视同仁——物理正确的预测和物理错误的预测,在 loss 上没有区别。模型不会主动"惩罚"穿模、反重力这类违规行为。

解决方案:VLM 判别器 + Diffusion-DPO

研究团队设计了一套自动化物理偏好数据生成流程,分为三个步骤:

Step 1:物理法则提议者(Proposer)

使用 Qwen3-VL 32B,根据初始帧和动作指令,动态生成任务相关的物理问题清单。

以"把苹果放进袋子"为例,Proposer 会问:

  • 机械臂是否穿透了苹果?
  • 苹果是否被牢固抓取,而非磁力吸附?
  • 袋口是否有可感知的形变?

关键是,Proposer 还会刻意生成部分否定性问题,防止评分模型"抄近道"——比如问"机械臂是否在接触苹果前就产生了吸附力",逼迫评分者不能只看结果而不看过程。

Step 2:物理保真度评分者(Scorer)

使用 Gemini 3 Pro,回答上述问题清单,对多个候选视频进行打分。

这里用了两个解耦的 VLM——Proposer 和 Scorer 分开,避免同一个模型既出题又打分带来的偏差。

Step 3:锦标赛采样

从 N 个候选视频中,通过淘汰赛和复活赛机制,高效选出物理表现最优(winner)和最差(loser)的样本对,构成 DPO 训练三元组 <x, y_w, y_l>

Diffusion-DPO 的实现

标准 DPO 是为自回归语言模型设计的,直接套到 Diffusion 上需要改造。ABot-PhysWorld 的做法,可以理解为把“偏好优化”从文本 token 概率,转成视频去噪过程中的相对优劣比较:模型需要更偏向物理更合理的候选视频,压低物理错误样本的相对得分。

这里真正关键的不是公式本身,而是训练目标发生了变化。模型不再只追求“像不像训练集分布”,还会被显式推动去区分“物理正确”和“物理错误”。

由于 14B 参数模型的显存限制,团队冻结了 DiT 主干,只用 LoRA 微调注意力层的投影矩阵,将可训练参数降到 2% 以下。


三、动作条件生成:精准控制还不忘本

为了让世界模型能够根据动作指令进行可控预测,ABot-PhysWorld 设计了一套动作注入机制,核心是并行上下文块

具体做法:

  1. 将机器人动作编码为空间动作图谱(spatial action map)
  2. 残差方式注入主干网络,而非直接替换
  3. 跨形态机器人通用:支持机械臂、四足、人形等多种机器人形态

残差注入避免了对预训练物理知识的灾难性遗忘。如果直接 finetune 动作条件,模型可能学会跟着动作走,但之前学到的物理规律(比如重力、碰撞响应)会丢失。残差方式保证了预训练知识得到保留。


四、评测体系:怎么证明模型真的懂物理

ABot-PhysWorld 提出了 EZSbench(Embodied Zero-Shot Benchmark),解决分布外泛化问题。

EZSbench 的设计原则:

  • 组合合成的 OOD 场景:任务组合是训练时没见过的
  • 解耦的双模型评测协议:一个模型生成视频,另一个模型(VLM)评判物理正确性,避免自评偏差

评测维度包括:

  • PBench 综合得分
  • EZSbench 领域得分(Domain Score)
  • 动作条件生成任务的轨迹一致性(nDTW)

五、实验结果:力压 Google Veo 和 NVIDIA GigaWorld

指标 ABot-PhysWorld Veo 3.1 Sora v2 Pro GigaWorld
PBench 综合得分 0.8491 - - -
PBench 领域得分 0.9306 0.8350 0.7626 0.75
EZSbench 领域得分 0.8366 - - -

按论文和官方仓库给出的结果,ABot-PhysWorld 在物理一致性和轨迹一致性相关指标上优于 Veo 3.1、Sora v2 Pro 和 GigaWorld 等基线模型。

在动作条件生成评测中,ABot-PhysWorld 实现了 0.8522 的轨迹一致性得分(nDTW),在 PSNR、SSIM 等视觉质量指标上也超越了 Enerverse-AC 和 Gen-Sim 等专门模型。


六、技术启示

回顾整个技术方案,我觉得最值得关注的有三点:

1. VLM 作为物理推理的裁判

这篇工作的关键,不只是换了个更大的 DiT,而是把“物理对不对”从像素生成目标里拆出来,交给独立的 VLM 做偏好判断。出题和打分分开,也降低了同一模型自问自答的偏差。

2. DPO 从语言到视频的迁移

DPO(Direct Preference Optimization)最初是为 LLM 设计的,用于对齐人类偏好。ABot-PhysWorld 把“人类偏好”换成“物理偏好”,这件事的价值在于:它提供了一条不用手工写物理引擎、也不用完全依赖逐像素监督的中间路线。

3. 数据质量比数量更重要

这篇工作说明,具身智能领域的瓶颈不只是“缺数据”,而是缺带物理语义和动作条件的数据。互联网视频再多,如果没有接触关系、轨迹信息和任务上下文,对机器人世界模型的帮助也有限。


后续:它更像一块基础能力

从目前公开信息看,ABot-PhysWorld 的定位更像具身系统里的基础世界模型能力,用于提升视频预测、动作条件生成和物理一致性建模。至于它是否已经进入具体机器人产品链路,公开材料还没有给出足够细节。

如果把视角放宽一点,这项工作的意义不在于“已经落到哪台机器人上”,而在于它把世界模型从“画面逼真”往“物理可信”推了一步。这一步对后续的仿真、规划和策略学习都会有价值。


本文主要基于论文摘要、官方仓库 README 和公开评测信息整理,未展开附录中的全部实现细节。

参考文献


本文链接:ABot-PhysWorld 物理推理架架构拆解 - https://h89.cn/archives/575.html

版权声明:原创文章 遵循 CC 4.0 BY-SA 版权协议,转载请附上原文链接和本声明。

标签: 具身智能, 世界模型, Transformer, ABot, PhysWorld

添加新评论