文章

扩散动作头取代自回归:强化学习后训练成为连接预训练大模型与具身动作能力的关键桥梁

文章分析了AI从语言范式向物理世界扩展的机遇与技术基础。当前VLAs、WAMs、原生具身模型等架构正收敛于学习物理世界表示;双系统分层架构(System 2推理+System 1控制)成为复杂具身AI的标准设计;强化学习后训练正将LLM的缩放定律引入动作领域;模拟和合成数据是解决物理世界数据稀缺的核心基础设施。三大前沿机会领域为机器人学习、自主科学和新的人机界面,三者共享物理动态学习表示、分层动作架构、闭环控制等技术基元,形成相互增强的结构性飞轮。

来源信息

发布时间:2026年4月15日

英文原标题:Frontier Systems for the Physical World

来源:查看 a16z 原文

核心要点
  • 视觉-语言-动作模型(VLAs)通过扩展预训练VLM实现动作解码,继承语义理解能力
  • 世界动作模型(WAMs)基于视频扩散Transformer学习物理动态_prior,实现零样本泛化
  • 原生具身基础模型从零开始训练,直接从物理交互数据学习动力学的压缩表示
  • 空间智能解决现有模型缺乏显式3D场景建模的问题
  • 双系统分层架构(System 2慢速推理+System 1快速控制)成为复杂具身AI的标准设计
关键判断
  • 双系统分层架构(System 2慢速推理+System 1快速控制)已成为复杂具身AI的标准设计模式
  • 流匹配和扩散动作头已成为连续动作生成的主导方法,生成轨迹在物理平滑度和抗误差累积方面优于自回归token预测
  • 强化学习后训练可显著提升具身AI任务性能并产生质性差异行为
  • 视觉-语言-动作模型(VLAs)通过扩展预训练VLM继承语义理解能力实现动作解码
  • 世界动作模型(WAMs)基于视频扩散Transformer学习物理动态prior实现零样本泛化
未来推演

判断:未来 3-9 个月,Agent 产品会更快从能力展示转向审批明确、可回滚、可观测的执行流程。

时间跨度:未来 3-9 个月

为什么是现在:文章对价值判断已经不再停留在对话体验,而是落在流程接入、执行闭环和控制能力上。

重点信号:产品是否增加审批节点、案例是否从演示转向生产流程、用户是否更重视可观测性

置信度: