标签世界模型下的文章

开场：视觉逼真不等于物理正确架构概览：14B 参数的物理感知 Diffusion Transformer 一、数据：精选而非堆砌二、物理偏好对齐：DPO 怎么用到视频生成传统 SFT 的局限解决方案：VLM 判别器 + Diffusion-DPO Diffusion-DPO 的实现三、动作条件生成：精准控制还不忘本四、评测体系：怎么证明模型真的懂物理五、实验结果：力压 Google Veo 和 NVIDIA GigaWorld 六、技术启示后续：它更像一块基础能力参考文献本文首发地址 https://h89.cn/archives/575.html 开场：视觉逼真不等于物理正确 Sora、Veo 这类视频生成模型在画面质量上已经接近真实拍摄，但把它们用在机器人系统里，问题立刻暴露：机械臂直接穿透物体抓取器在未接触时就"吸附"了目

- 阅读剩余部分 -

标签 世界模型 下的文章

ABot-PhysWorld 物理推理架架构拆解