ABot-PhysWorld 物理推理架架构拆解
开场:视觉逼真不等于物理正确
架构概览:14B 参数的物理感知 Diffusion Transformer
一、数据:精选而非堆砌
二、物理偏好对齐:DPO 怎么用到视频生成
传统 SFT 的局限
解决方案:VLM 判别器 + Diffusion-DPO
Diffusion-DPO 的实现
三、动作条件生成:精准控制还不忘本
四、评测体系:怎么证明模型真的懂物理
五、实验结果:力压 Google Veo 和 NVIDIA GigaWorld
六、技术启示
后续:它更像一块基础能力
参考文献
本文首发地址 https://h89.cn/archives/575.html
开场:视觉逼真不等于物理正确
Sora、Veo 这类视频生成模型在画面质量上已经接近真实拍摄,但把它们用在机器人系统里,问题立刻暴露:
机械臂直接穿透物体
抓取器在未接触时就"吸附"了目