在 WAM 谱系里,前面几篇我们已经看过"先生成一段执行视频、再用逆动力学模型(IDM)从相邻两帧倒推动作"的级联式路线(如 UniPi)。这条路线有个绕不开的成本:那个负责"倒推动作"的 IDM,本身得用带动作标注的机器人数据来训练——你得先有一大堆"这一帧到下一帧,机械臂实际执行了什么指令"的配对样本,网络才学得会。
可是世界上绝大多数视频里根本没有这种标注。YouTube 上一段人切菜的视频、一段机械臂搬箱子的演示,画面是有了,可"每一帧对应的关节角速度是多少"这种信息,谁会去标?
AVDC(Actionless Video with Dense Correspondences,意为"借助稠密对应关系、从无动作视频中学习")这篇 ICLR 2024 的工作,给出了一个相当漂亮的回答:既然动作可以靠几何"算"出来,那就别去"学"它了。 它把级联式 WAM 的第二阶段,从一个需要训练、需要标注的神经网络,换成了一套零训练、纯解析的几何流水线。
一、要解决什么问题:动作标注,是机器人学习头上的一座大山
我们先把痛点讲透。
想让机器人学会一项操作,最直接的办法是"模仿学习"——给它看大量"专家演示",每条演示是一串 (画面, 动作) 的配对,让它学会"看到这样的画面,就该输出这样的动作"。问题在于"动作"这一栏:它必须由真实机器人、在遥操作(人遥控真机)下一帧一帧采集,既慢又贵,而且采到的数据只适用于那一台机器人——换个机械臂、换个夹爪,动作空间就变了,数据基本作废。
于是研究者们眼馋互联网上海量的、只有画面没有动作的视频。这些视频里藏着丰富的"物理常识"和"任务知识":门是怎么被推开的、水是怎么被倒出来的、布是怎么被叠起来的。可它们就是没有动作标签。
AVDC 的核心追问是:我们能不能完全不用任何动作标注,仅凭"画面会怎样演变"这一条信息,就让机器人动起来?
这里有一个关键的直觉转换。机器人执行一个动作,本质上是在物理世界里"挪动某个东西"——把杯子从 A 点挪到 B 点、把门从关着挪到开着。如果我能预测出"这个物体接下来会怎么移动、怎么转动",那么"机器人该怎么动"在几何上其实已经被确定了:你只要让夹爪带着物体走完这段位移即可。动作信息,其实冗余地编码在了"画面的变化"里——这就是 AVDC 敢说"动作可以算、不用学"的底气。
二、核心思想与直觉:把"画面会怎么变"翻译成"该怎么动"
一句话概括 AVDC 的思路:
用一个文本条件的视频扩散模型,"想象"出任务完成的整段过程;再用现成的光流工具看清画面里每个点是怎么移动的;最后用刚体几何,把这些移动解析地反解成机器人末端该执行的位姿变换——全程不碰任何动作标签。
它属于级联式 WAM 里"基于像素空间、几何式动作提取"的那一支。和 UniPi 那条"学习式提取"路线最关键的区别就在第二阶段:
UniPi 路线:第二阶段是一个 IDM(逆动力学模型,简单说就是"看着前后两帧画面、倒推中间执行了什么动作"的神经网络),需要带动作标注的数据来训练。
AVDC 路线:第二阶段是一套闭式几何计算(closed-form,意思是"有现成公式可以直接解出答案、不需要迭代训练"),零训练、零动作标注。
这就把"动作提取"从一个机器学习问题,降维成了一个经典几何问题。好处是立竿见影的:训练成本骤降(只需训那个视频生成器),而且天然具备一定的跨本体能力——因为"物体该怎么移动"这件事,跟你用的是哪台机器人毫无关系。
三、方法详解:三步流水线
AVDC 的整条管线可以拆成"生成 → 看清 → 反解 → 执行"。我们一步步拆开看。
3.1 第一步:文本条件视频扩散模型——"想象"完成任务的过程
先说它在干嘛。 给定当前这一帧画面(机器人眼前的场景)和一句任务描述(比如"打开抽屉"),这个模型要"脑补"出接下来会发生什么——生成一小段视频,画面里物体一步步被挪到任务完成的样子。
再说怎么实现。 这是一个基于 U-Net 的扩散模型(扩散模型,简单说就是"先把一堆随机噪声,通过多步去噪、逐渐还原成一张有意义的图"的生成模型)。AVDC 的几个设计要点:
首帧作为条件:把初始帧 img₀ 在 RGB 通道维度上,拼接到所有待生成的未来帧上。这等于反复告诉模型"你画的每一帧,都要从这个场景出发"。论文实验发现,这种"通道拼接"的条件方式,比逐帧单独喂条件,在训练早期收敛得更快。
文本作为条件:用 CLIP 的文本编码器把指令编码成一个向量,再通过 Perceiver 注意力池化,融进扩散模型的时间步嵌入里。
一次生成固定 8 帧:模型一口气并行生成 T=8 帧未来画面,而不是一帧帧自回归地接龙。
时空分解卷积(factorized spatial-temporal convolution):这是个效率技巧。处理视频本该用 3D 卷积,但太重;AVDC 把它拆成"先对每一帧做空间卷积、再沿时间轴对每个空间位置做时间卷积"。论文称这样几乎不损失画质,却大幅提升了训练和推理速度——整套模型在 Meta-World 上仅用 4 张 V100 训练约 24 小时即可。
训练目标就是标准的扩散去噪损失:让网络学会预测被加进画面的高斯噪声(均方误差 MSE)。注意——这一步训练,只需要视频本身,完全不需要动作标签。
3.2 第二步:稠密光流——看清每个像素怎么移动
视频生成好了,现在要"看清"画面里的东西到底怎么动了。
先说直觉。 光流(optical flow),通俗讲就是"把前一帧的每个像素,跟后一帧里它跑到的新位置一一连起来的那张’位移地图’"。有了光流,我们就知道画面里每一个点,从这一帧到下一帧,在二维图像上挪了多远、往哪挪。
再说实现。 AVDC 在这里直接调用现成的 GMFlow(一个基于 Transformer 的光流估计器),完全不在自己的数据上重新训练它。对生成视频里相邻的每一对帧,GMFlow 都吐出一张稠密的像素级对应关系图。这一步是整套"零训练动作提取"理念的关键——连看清运动的工具都是开箱即用的。
3.3 第三步:解析反解 SE(3) 变换——从"像素移动"到"物体位姿变化"
这是 AVDC 最核心、也最巧妙的一步:把二维的像素位移,反解成三维世界里物体的刚体运动。
为什么是 SE(3)? SE(3) 是描述三维空间中刚体运动的数学群,说人话就是"一个旋转 + 一个平移"的组合——任何刚体(比如一个杯子)在空间里的姿态变化,都能用这么一对 (R, t)(旋转矩阵 R、平移向量 t)完整描述。我们的目标就是求出:物体从这一帧到下一帧,经历了怎样的 (R, t)。
怎么解? 流程是这样的:
从初始的 RGBD 图(带深度的彩色图)里,利用相机内参 K,把物体表面的像素点反投影成一组三维点 {xᵢ}。
借助第二步算出的光流,追踪这些点在后续每一帧里跑到了哪个二维位置。
求解一个刚体变换 Tₜ,使得"把三维点 xᵢ 经过 Tₜ 变换、再投影回二维图像"的结果,尽可能贴合光流观测到的实际二维位置。这本质是在最小化一个重投影误差(reprojection error)。
用 RANSAC(一种抗噪声的鲁棒拟合方法,能自动剔除少数离群的错误对应点)先在二维上找出可靠的对应,再据此从内点解出三维的旋转与平移。
解出 Tₜ 后,"物体该怎么动"就完全确定了。
3.4 把物体运动变成机器人动作 + 闭环重规划
最后一步,把"物体的位姿变化"翻译成"机器人末端执行器的动作":
抓取假设:在物体上随机采样一个抓取点,假定夹爪抓住此处;那么物体的目标位姿,就直接决定了末端执行器的目标位姿。沿着解出的一连串 Tₜ,迭代生成一串子目标,用位置控制器依次去够到它们。
导航任务的小变体:在 iTHOR 导航里没有"被操作的物体",移动的是相机本身。AVDC 把变换求逆 Cₜ = (Tₜ)⁻¹,就得到了第一人称相机的运动轨迹。
更妙的是闭环重规划(replanning)机制。开环执行难免有误差或卡住,AVDC 设了个简单触发条件:当机器人在连续 15 个时间步里移动不足 1 毫米、任务却还没完成,就判定"卡住了",立刻从当前观测重新生成视频、重新解动作。论文的消融实验证明,这一招对成功率的提升至关重要。
核心公式与逻辑梳理
把前面三步流水线串成一条形式化链条,AVDC 的全过程可以浓缩成下面这几步:
输入:初始 RGB-D 画面 img0\text{img}_0img0 + 文本指令 txt\text{txt}txt。
想象:文本条件视频扩散模型生成未来 T=8T=8T=8 帧画面 img1:T\text{img}_{1:T}img1:T。
看清:GMFlow 在相邻帧之间算稠密二维光流 {(uti,vti)}\{(u_t^i, v_t^i)\}{(uti,vti)}。
反解:以深度 + 内参把首帧像素反投影成三维点 {xi}\{x_i\}{xi},再求一组 Tt∈SE(3)T_t \in SE(3)Tt∈SE(3) 使得"先三维变换、再投回二维"贴合光流观测。
执行 + 闭环:用 IK 把 TtT_tTt 转成末端目标;连续 15 步动得不到 1 mm 就触发重规划。
下面挑出三条最核心的式子讲透。
(1) 视频扩散的去噪损失(训练目标)
LMSE=∥ε−εθ (1−βt img1:T+βt ε, t∣txt)∥2\mathcal{L}_{\text{MSE}} = \left\| \varepsilon - \varepsilon_\theta\!\left( \sqrt{1-\beta_t}\,\text{img}_{1:T} + \sqrt{\beta_t}\,\varepsilon,\ t \mid \text{txt} \right) \right\|^2LMSE=
ε−εθ(1−βt
img1:T+βt
ε, t∣txt)
2
符号说明:img1:T\text{img}_{1:T}img1:T 是一段干净的未来视频(T=8T=8T=8 帧);ε∼N(0,I)\varepsilon \sim \mathcal{N}(0, I)ε∼N(0,I) 是采样到的高斯噪声;βt\beta_tβt 是第 ttt 步扩散的噪声强度(ttt 越大噪声越多);εθ(⋅)\varepsilon_\theta(\cdot)εθ(⋅) 是 U-Net 去噪网络,它要在给定"加噪图 + 时间步 + 文本"的前提下把噪声预测回来;txt\text{txt}txt 经 CLIP 文本编码器后注入。
这条式子在做什么:完全是标准扩散模型的"预测噪声"目标,只不过条件里多了 txt\text{txt}txt。直觉上就是反复地把干净视频涂上不同强度的噪声、再让网络猜出噪声。关键在于整个训练只用 RGB 视频和文本,不需要任何动作标签——这是 AVDC 跨过"无动作视频"这道门槛的根本所在。注意 img0\text{img}_0img0 不出现在损失里:它是以"通道拼接"的方式硬塞进 εθ\varepsilon_\thetaεθ 的输入中,等于每一帧都被告知"你从这个场景出发"。
(2) 几何反解 SE(3):最小化重投影误差
LTrans=∑i∥uti−(KTtxi)1(KTtxi)3∥22+∥vti−(KTtxi)2(KTtxi)3∥22\mathcal{L}_{\text{Trans}} = \sum_i \left\| u_t^i - \frac{(K T_t x_i)_1}{(K T_t x_i)_3} \right\|_2^2 + \left\| v_t^i - \frac{(K T_t x_i)_2}{(K T_t x_i)_3} \right\|_2^2LTrans=i∑
uti−(KTtxi)3(KTtxi)1
22+
vti−(KTtxi)3(KTtxi)2
22
符号说明:xi∈R3x_i \in \mathbb{R}^3xi∈R3 是首帧反投影出的第 iii 个三维点(用相机内参 KKK 和深度图算出);Tt∈SE(3)T_t \in SE(3)Tt∈SE(3) 是我们要求解的、物体在第 ttt 帧的刚体变换(一个 4×44\times 44×4 齐次矩阵,包含旋转 RRR 和平移 ttt);KTtxiK T_t x_iKTtxi 把三维点先变换到第 ttt 帧、再用内参投到相机平面(齐次坐标);(⋅)1,(⋅)2,(⋅)3(\cdot)_1, (\cdot)_2, (\cdot)_3(⋅)1,(⋅)2,(⋅)3 分别取齐次坐标的三个分量,除以第三个分量是标准的透视除法;(uti,vti)(u_t^i, v_t^i)(uti,vti) 是光流告诉我们的"该点跑到了图像上的哪里"。
这条式子在做什么:它就是经典的重投影误差——把"我猜的三维运动"投回二维,看和"光流观测到的二维位移"差多少,差距越小越好。整个 LTrans\mathcal{L}_{\text{Trans}}LTrans 关于 TtT_tTt 的最小化是闭式可解的几何问题(配合 RANSAC 剔除离群点),根本不需要训练。把这条式子和上面那条对照看,就能体会到 AVDC 最关键的取舍:第一阶段"想象未来"用学习,第二阶段"反解动作"用几何,二者各占一段、互不打扰。
(3) 闭环重规划的触发条件
Replan if maxt−14≤s≤t∥ps−ps−1∥<1 mm 且任务未完成\text{Replan}\ \ \text{if}\ \ \max_{t-14 \le s \le t}\|p_s - p_{s-1}\| < 1\,\text{mm}\ \ \text{且任务未完成}Replan if t−14≤s≤tmax∥ps−ps−1∥<1mm 且任务未完成
符号说明:psp_sps 是机器人末端执行器在第 sss 步的三维位置;式子右边写得通俗些就是"连续 15 步里每一步的位移都不到 1 毫米";"任务未完成"由环境给出的成功信号判定。
这条式子在做什么:它是一个非常朴素的"卡住检测器"。一旦判定卡住,就把当前帧重新喂给视频扩散模型再"想"一次、重新解一遍 TtT_tTt。消融实验里去掉重规划成功率从 43.1% 跌到 19.6%,说明 AVDC 那"先开环、卡住才重想"的策略,本质上是用极便宜的方式给纯生成式规划兜了底。
四、实验怎么做·结果说明了什么
AVDC 在三类场景上做了验证:仿真操作(Meta-World)、仿真导航(iTHOR)、真机(Franka Panda)。
4.1 Meta-World:11 个操作任务
训练数据极省——11 个任务、3 个相机视角、每个任务仅 5 条演示,共 165 段视频。整体表现:
方法
整体成功率
是否需动作标注
AVDC(完整版)
43.1%
否
BC-Scratch(从零行为克隆)
16.2%
是
BC-R3M(用 R3M 预训练特征)
15.4%
是
UniPi(改造版,喂了动作标注)
6.1%
是
AVDC(去掉重规划)
19.6%
否
AVDC(仅用光流、不解 SE(3))
13.7%
否
怎么解读这组数字?最戳人的一点是:AVDC 不用任何动作标注,却把那些用了动作标注的行为克隆基线(16.2%、15.4%)甩开了一大截。 而专门改造来吃动作标注的 UniPi 只有 6.1%——这说明在如此少的演示下,"先想象未来、再用几何反解"的范式,比"直接学映射"或"学 IDM"都更省数据、更稳。
具体到单个任务,差异也很说明问题:开关门、按把手这类"刚体整体平移/转动"的任务成功率很高(开门 72%、关门 89.3%、按把手 81.3%);而 Hammer(8%)、Assembly(6.7%)这类需要精细对位、富接触的任务则很吃力——这恰恰暴露了纯几何反解的边界(后面"局限"会展开)。
4.2 iTHOR 导航
12 类目标物 × 4 种房间、每组 20 个回合:
方法
整体成功率
AVDC
31.3%
BC-Scratch
2.1%
BC-R3M
0.4%
行为克隆基线几乎全军覆没(2.1%、0.4%),AVDC 的 31.3% 是压倒性的。这说明"先想象一段第一人称的行进画面、再反解相机轨迹"的思路,在导航上同样成立。
4.3 跨本体迁移:从人类视频到机器人
一个亮眼的设定:用 198 段人类手推物体的视频训练,然后零样本迁移到机器人推物任务上——40 次试验中成功率达 90%。这有力佐证了"几何式动作提取天然跨本体"的论断:人手怎么把物体推过去,和机械臂怎么把物体推过去,在"物体位移"这个抽象层面是一回事。
4.4 真机 Franka Panda
先在 Bridge 数据集(33,078 段视频)上训练,再用 20 段人类桌面演示微调。论文对失败做了归因:75% 的失败源于"想象的计划本身就错了",25% 源于"生成视频不连贯导致光流追踪断裂"——这把后续改进的方向指得很清楚:瓶颈在第一阶段的视频生成质量,而非第二阶段的几何反解。
4.5 关键消融
重规划的价值:去掉重规划,成功率从 43.1% 跌到 19.6%——几乎腰斩。而且成功率随着允许的最大重规划次数(1→5 次)单调上升。
物体分割的影响:用预测掩码(Language Segment-Anything)替代真值掩码,成功率从 43.1% 降到 34.5%(−8.6%),说明分割误差会传导,但整体仍可用。
文本编码器:CLIP 与 T5-base 几乎无差别——说明指令编码不是瓶颈。
五、亮点与为什么重要
把动作提取从"学习"变成"解析":这是 AVDC 最大的概念贡献。第二阶段零训练、零动作标注,整套系统只需训一个视频生成器,极大降低了对昂贵机器人数据的依赖。
首次把"无动作视频"真正用起来:它兑现了那个诱人的承诺——互联网上海量没标注的视频,确实可以直接喂给机器人学习,因为动作信息本就冗余地藏在画面变化里。
天然跨本体:"物体该怎么动"与机器人形态无关,所以人类视频能直接迁移到机器人(90% 的推物成功率就是明证)。
可解释、可调试:失败时能清楚归因到"是计划错了还是视频不连贯",这在端到端黑盒策略里是很难做到的。
它是几何式级联 WAM 的开山之作——后面 Im2Flow2Act、3DFlowAction 把光流这条线越做越深,Dreamitate、RIGVid 则换成物体/工具位姿跟踪,但"用几何而非学习来反解动作"的火种,是 AVDC 点燃的。
六、局限与未解
AVDC 自己也坦承了几处硬伤,大多源于"纯几何反解"和"光流"的固有约束:
遮挡是死穴:机械臂自己挡住了被操作物体,光流就追丢了。
光流不耐受剧烈变化:光照骤变、物体大幅快速运动时,光流估计会崩,进而连累几何反解。
抓取与接触无法跨形态迁移:“物体位移"虽与本体无关,但"怎么抓住它”"接触力多大"却高度依赖具体夹爪——这部分信息几何反解给不出。
拿不到力的信息:RGB 画面里看不见力,所以富接触、需要力控的精细任务(如 Hammer、Assembly)表现差。
低分辨率放大误差:视频分辨率低时,光流里几个像素的小误差,经过反投影会被放大成三维空间里的大误差。
归根结底,AVDC 把成败押在了"第一阶段视频生成得准不准"上(真机失败 75% 都怪计划错了)。这也解释了为什么后续工作要么去改进生成的中间表征(从 2D 流升到 3D 流),要么干脆绕开像素生成(在潜在空间里直接生成流)。
七、在 WAM 谱系中的位置
AVDC 处在级联式 WAM 的"像素空间 + 几何提取"分支的最上游:
承上:它继承了 UniPi"先生成执行视频、再提取动作"的两阶段蓝图,但把第二阶段从"学习式 IDM"换成了"解析式几何反解",去掉了动作标注的枷锁。
启下:它定义了一条清晰的技术脉络——
Im2Flow2Act(第 14 篇):嫌像素级视频生成太慢,干脆在潜在空间直接生成光流,绕开 RGB 合成;
3DFlowAction(第 16 篇):嫌二维光流丢了旋转和深度信息,把流从 2D 提升到 3D;
NovaFlow、Dream2Flow:把范式推到极致,连第一阶段都用现成的视频生成大模型零训练完成;
Dreamitate(第 15 篇)、RIGVid:换一条几何提取路线——不追光流,而是跟踪工具/物体的 6DoF 位姿。
可以说,AVDC 用一套优雅的几何反解,为整个"级联式 WAM → 像素空间 → 几何式动作提取"家族奠定了方法论基石:世界模型负责想象未来,几何负责把未来翻译成动作,二者各司其职、互不打扰。
八、参考
论文:Po-Chen Ko, Jiayuan Mao, Yilun Du, Shao-Hua Sun, Joshua B. Tenenbaum. Learning to Act from Actionless Videos through Dense Correspondences.
会议:International Conference on Learning Representations (ICLR), 2024.
arXiv:https://arxiv.org/abs/2310.08576
注:本文为基于该论文的学习性解读,所有方法、数据集与数值均来自论文公开信息,方法名称保留英文原名以便检索。