文章

扩散动作头取代自回归：强化学习后训练成为连接预训练大模型与具身动作能力的关键桥梁

文章分析了AI从语言范式向物理世界扩展的机遇与技术基础。当前VLAs、WAMs、原生具身模型等架构正收敛于学习物理世界表示；双系统分层架构（System 2推理+System 1控制）成为复杂具身AI的标准设计；强化学习后训练正将LLM的缩放定律引入动作领域；模拟和合成数据是解决物理世界数据稀缺的核心基础设施。三大前沿机会领域为机器人学习、自主科学和新的人机界面，三者共享物理动态学习表示、分层动作架构、闭环控制等技术基元，形成相互增强的结构性飞轮。

来源信息

发布时间：2026年4月15日

英文原标题：Frontier Systems for the Physical World

来源：查看 a16z 原文

核心要点

视觉-语言-动作模型（VLAs）通过扩展预训练VLM实现动作解码，继承语义理解能力
世界动作模型（WAMs）基于视频扩散Transformer学习物理动态_prior，实现零样本泛化
原生具身基础模型从零开始训练，直接从物理交互数据学习动力学的压缩表示
空间智能解决现有模型缺乏显式3D场景建模的问题
双系统分层架构（System 2慢速推理+System 1快速控制）成为复杂具身AI的标准设计

关键判断

双系统分层架构（System 2慢速推理+System 1快速控制）已成为复杂具身AI的标准设计模式
流匹配和扩散动作头已成为连续动作生成的主导方法，生成轨迹在物理平滑度和抗误差累积方面优于自回归token预测
强化学习后训练可显著提升具身AI任务性能并产生质性差异行为
视觉-语言-动作模型（VLAs）通过扩展预训练VLM继承语义理解能力实现动作解码
世界动作模型（WAMs）基于视频扩散Transformer学习物理动态prior实现零样本泛化

未来推演

判断：未来 3-9 个月，Agent 产品会更快从能力展示转向审批明确、可回滚、可观测的执行流程。

时间跨度：未来 3-9 个月

为什么是现在：文章对价值判断已经不再停留在对话体验，而是落在流程接入、执行闭环和控制能力上。

重点信号：产品是否增加审批节点、案例是否从演示转向生产流程、用户是否更重视可观测性

置信度：高