标签 ABot 下的文章

开场:视觉逼真不等于物理正确 架构概览:14B 参数的物理感知 Diffusion Transformer 一、数据:精选而非堆砌 二、物理偏好对齐:DPO 怎么用到视频生成 传统 SFT 的局限 解决方案:VLM 判别器 + Diffusion-DPO Diffusion-DPO 的实现 三、动作条件生成:精准控制还不忘本 四、评测体系:怎么证明模型真的懂物理 五、实验结果:力压 Google Veo 和 NVIDIA GigaWorld 六、技术启示 后续:它更像一块基础能力 参考文献 本文首发地址 https://h89.cn/archives/575.html 开场:视觉逼真不等于物理正确 Sora、Veo 这类视频生成模型在画面质量上已经接近真实拍摄,但把它们用在机器人系统里,问题立刻暴露: 机械臂直接穿透物体 抓取器在未接触时就"吸附"了目

- 阅读剩余部分 -