ABot-PhysWorld 物理推理架架构拆解

开场：视觉逼真不等于物理正确
架构概览：14B 参数的物理感知 Diffusion Transformer
一、数据：精选而非堆砌
二、物理偏好对齐：DPO 怎么用到视频生成
三、动作条件生成：精准控制还不忘本
四、评测体系：怎么证明模型真的懂物理
五、实验结果：力压 Google Veo 和 NVIDIA GigaWorld
六、技术启示
后续：它更像一块基础能力
参考文献

本文首发地址 https://h89.cn/archives/575.html

开场：视觉逼真不等于物理正确

Sora、Veo 这类视频生成模型在画面质量上已经接近真实拍摄，但把它们用在机器人系统里，问题立刻暴露：

机械臂直接穿透物体
抓取器在未接触时就"吸附"了目标
刚性部件在交互中发生形变

这些违反物理规律的现象，人类一眼就能看出来，但模型往往学不稳。原因不只是数据里缺少这类约束，也因为常规视频生成目标并不会显式惩罚这类错误。

这就是视频生成模型面临的核心矛盾：视觉美学与物理真实性的脱节。ABot-PhysWorld 针对的就是这个问题。

架构概览：14B 参数的物理感知 Diffusion Transformer

ABot-PhysWorld 基于 140亿参数的 Diffusion Transformer（Wan2.1-I2V-14B），通过四个方向解决物理对齐问题：

数据筛选：基于约 300 万条操控视频片段构建训练数据，补充物理监督信号。

物理偏好对齐：传统 SFT 无法惩罚物理违规，团队引入 VLM 判别器和 Diffusion-DPO 机制。

动作条件生成：通过并行上下文块和空间动作图谱，在注入动作指令的同时保留预训练知识。

评测体系：EZSbench 通过解耦双模型评测，验证分布外泛化能力。

下面逐个拆解。

一、数据：精选而非堆砌

通用视频数据的问题在于缺少物理约束。网上的短视频、影视素材里，摩擦、碰撞、接触动力学这些机器人操控特有的物理现象几乎不存在。机械臂抓取、物体倾倒、滑动堆叠这类场景本身就少，带动作标注的更是稀缺。

ABot-PhysWorld 的训练数据来自 AgiBot、RoboMimic、OXE 等五个公开具身数据集，规模约 300 万条真实操控视频片段，覆盖多种任务、场景和物体类别。

关键在于physics-aware annotation。论文强调这类标注不只描述“机器人做了什么”，还要尽量保留与轨迹、接触关系、物体状态变化有关的信息，让模型学到“为什么会这样”，而不只是“看起来像这样”。

二、物理偏好对齐：DPO 怎么用到视频生成

传统 SFT 的局限

标准的监督式微调（SFT）采用最大似然目标，对所有样本一视同仁——物理正确的预测和物理错误的预测，在 loss 上没有区别。模型不会主动"惩罚"穿模、反重力这类违规行为。

解决方案：VLM 判别器 + Diffusion-DPO

研究团队设计了一套自动化物理偏好数据生成流程，分为三个步骤：

Step 1：物理法则提议者（Proposer）

使用 Qwen3-VL 32B，根据初始帧和动作指令，动态生成任务相关的物理问题清单。

以"把苹果放进袋子"为例，Proposer 会问：

机械臂是否穿透了苹果？
苹果是否被牢固抓取，而非磁力吸附？
袋口是否有可感知的形变？

关键是，Proposer 还会刻意生成部分否定性问题，防止评分模型"抄近道"——比如问"机械臂是否在接触苹果前就产生了吸附力"，逼迫评分者不能只看结果而不看过程。

Step 2：物理保真度评分者（Scorer）

使用 Gemini 3 Pro，回答上述问题清单，对多个候选视频进行打分。

这里用了两个解耦的 VLM——Proposer 和 Scorer 分开，避免同一个模型既出题又打分带来的偏差。

Step 3：锦标赛采样

从 N 个候选视频中，通过淘汰赛和复活赛机制，高效选出物理表现最优（winner）和最差（loser）的样本对，构成 DPO 训练三元组 <x, y_w, y_l>。

Diffusion-DPO 的实现

标准 DPO 是为自回归语言模型设计的，直接套到 Diffusion 上需要改造。ABot-PhysWorld 的做法，可以理解为把“偏好优化”从文本 token 概率，转成视频去噪过程中的相对优劣比较：模型需要更偏向物理更合理的候选视频，压低物理错误样本的相对得分。

这里真正关键的不是公式本身，而是训练目标发生了变化。模型不再只追求“像不像训练集分布”，还会被显式推动去区分“物理正确”和“物理错误”。

由于 14B 参数模型的显存限制，团队冻结了 DiT 主干，只用 LoRA 微调注意力层的投影矩阵，将可训练参数降到 2% 以下。

三、动作条件生成：精准控制还不忘本

为了让世界模型能够根据动作指令进行可控预测，ABot-PhysWorld 设计了一套动作注入机制，核心是并行上下文块。

具体做法：

将机器人动作编码为空间动作图谱（spatial action map）
以残差方式注入主干网络，而非直接替换
跨形态机器人通用：支持机械臂、四足、人形等多种机器人形态

残差注入避免了对预训练物理知识的灾难性遗忘。如果直接 finetune 动作条件，模型可能学会跟着动作走，但之前学到的物理规律（比如重力、碰撞响应）会丢失。残差方式保证了预训练知识得到保留。

四、评测体系：怎么证明模型真的懂物理

ABot-PhysWorld 提出了 EZSbench（Embodied Zero-Shot Benchmark），解决分布外泛化问题。

EZSbench 的设计原则：

组合合成的 OOD 场景：任务组合是训练时没见过的
解耦的双模型评测协议：一个模型生成视频，另一个模型（VLM）评判物理正确性，避免自评偏差

评测维度包括：

PBench 综合得分
EZSbench 领域得分（Domain Score）
动作条件生成任务的轨迹一致性（nDTW）

五、实验结果：力压 Google Veo 和 NVIDIA GigaWorld

指标	ABot-PhysWorld	Veo 3.1	Sora v2 Pro	GigaWorld
PBench 综合得分	0.8491	-	-	-
PBench 领域得分	0.9306	0.8350	0.7626	0.75
EZSbench 领域得分	0.8366	-	-	-

按论文和官方仓库给出的结果，ABot-PhysWorld 在物理一致性和轨迹一致性相关指标上优于 Veo 3.1、Sora v2 Pro 和 GigaWorld 等基线模型。

在动作条件生成评测中，ABot-PhysWorld 实现了 0.8522 的轨迹一致性得分（nDTW），在 PSNR、SSIM 等视觉质量指标上也超越了 Enerverse-AC 和 Gen-Sim 等专门模型。

六、技术启示

回顾整个技术方案，我觉得最值得关注的有三点：

1. VLM 作为物理推理的裁判

这篇工作的关键，不只是换了个更大的 DiT，而是把“物理对不对”从像素生成目标里拆出来，交给独立的 VLM 做偏好判断。出题和打分分开，也降低了同一模型自问自答的偏差。

2. DPO 从语言到视频的迁移

DPO（Direct Preference Optimization）最初是为 LLM 设计的，用于对齐人类偏好。ABot-PhysWorld 把“人类偏好”换成“物理偏好”，这件事的价值在于：它提供了一条不用手工写物理引擎、也不用完全依赖逐像素监督的中间路线。

3. 数据质量比数量更重要

这篇工作说明，具身智能领域的瓶颈不只是“缺数据”，而是缺带物理语义和动作条件的数据。互联网视频再多，如果没有接触关系、轨迹信息和任务上下文，对机器人世界模型的帮助也有限。

后续：它更像一块基础能力

从目前公开信息看，ABot-PhysWorld 的定位更像具身系统里的基础世界模型能力，用于提升视频预测、动作条件生成和物理一致性建模。至于它是否已经进入具体机器人产品链路，公开材料还没有给出足够细节。

如果把视角放宽一点，这项工作的意义不在于“已经落到哪台机器人上”，而在于它把世界模型从“画面逼真”往“物理可信”推了一步。这一步对后续的仿真、规划和策略学习都会有价值。

本文主要基于论文摘要、官方仓库 README 和公开评测信息整理，未展开附录中的全部实现细节。

参考文献

ABot-PhysWorld: Learning Physical World Models for Embodied Systems，arXiv:2603.23376
ABot-PhysWorld 官方仓库，GitHub
ABot-PhysWorld 技术详解，TechBeat，2026-03-24
WorldArena: A Benchmark for Evaluating Physical Reasoning in World Models，arXiv:2602.08971
WR-Arena: A Unified Evaluation Framework for World Models，arXiv:2603.25887
Amap Set To Unveil First Embodied Robot, Homegrown Model Tops Global Rankings，PRNewswire，2026-04-15