【WAM篇】13：AVDC——只看“无动作的视频“，就能解出机器人该怎么动-完美365体育app下载安装-完美365体育app下载安装-365bet中文资讯网-365即时比分足球

在 WAM 谱系里，前面几篇我们已经看过"先生成一段执行视频、再用逆动力学模型（IDM）从相邻两帧倒推动作"的级联式路线（如 UniPi）。这条路线有个绕不开的成本：那个负责"倒推动作"的 IDM，本身得用带动作标注的机器人数据来训练——你得先有一大堆"这一帧到下一帧，机械臂实际执行了什么指令"的配对样本，网络才学得会。

可是世界上绝大多数视频里根本没有这种标注。YouTube 上一段人切菜的视频、一段机械臂搬箱子的演示，画面是有了，可"每一帧对应的关节角速度是多少"这种信息，谁会去标？

AVDC（Actionless Video with Dense Correspondences，意为"借助稠密对应关系、从无动作视频中学习"）这篇 ICLR 2024 的工作，给出了一个相当漂亮的回答：既然动作可以靠几何"算"出来，那就别去"学"它了。它把级联式 WAM 的第二阶段，从一个需要训练、需要标注的神经网络，换成了一套零训练、纯解析的几何流水线。

一、要解决什么问题：动作标注，是机器人学习头上的一座大山

我们先把痛点讲透。

想让机器人学会一项操作，最直接的办法是"模仿学习"——给它看大量"专家演示"，每条演示是一串 (画面, 动作) 的配对，让它学会"看到这样的画面，就该输出这样的动作"。问题在于"动作"这一栏：它必须由真实机器人、在遥操作（人遥控真机）下一帧一帧采集，既慢又贵，而且采到的数据只适用于那一台机器人——换个机械臂、换个夹爪，动作空间就变了，数据基本作废。

于是研究者们眼馋互联网上海量的、只有画面没有动作的视频。这些视频里藏着丰富的"物理常识"和"任务知识"：门是怎么被推开的、水是怎么被倒出来的、布是怎么被叠起来的。可它们就是没有动作标签。

AVDC 的核心追问是：我们能不能完全不用任何动作标注，仅凭"画面会怎样演变"这一条信息，就让机器人动起来？

这里有一个关键的直觉转换。机器人执行一个动作，本质上是在物理世界里"挪动某个东西"——把杯子从 A 点挪到 B 点、把门从关着挪到开着。如果我能预测出"这个物体接下来会怎么移动、怎么转动"，那么"机器人该怎么动"在几何上其实已经被确定了：你只要让夹爪带着物体走完这段位移即可。动作信息，其实冗余地编码在了"画面的变化"里——这就是 AVDC 敢说"动作可以算、不用学"的底气。

二、核心思想与直觉：把"画面会怎么变"翻译成"该怎么动"

一句话概括 AVDC 的思路：

用一个文本条件的视频扩散模型，"想象"出任务完成的整段过程；再用现成的光流工具看清画面里每个点是怎么移动的；最后用刚体几何，把这些移动解析地反解成机器人末端该执行的位姿变换——全程不碰任何动作标签。

它属于级联式 WAM 里"基于像素空间、几何式动作提取"的那一支。和 UniPi 那条"学习式提取"路线最关键的区别就在第二阶段：

UniPi 路线：第二阶段是一个 IDM（逆动力学模型，简单说就是"看着前后两帧画面、倒推中间执行了什么动作"的神经网络），需要带动作标注的数据来训练。

AVDC 路线：第二阶段是一套闭式几何计算（closed-form，意思是"有现成公式可以直接解出答案、不需要迭代训练"），零训练、零动作标注。

这就把"动作提取"从一个机器学习问题，降维成了一个经典几何问题。好处是立竿见影的：训练成本骤降（只需训那个视频生成器），而且天然具备一定的跨本体能力——因为"物体该怎么移动"这件事，跟你用的是哪台机器人毫无关系。

三、方法详解：三步流水线

AVDC 的整条管线可以拆成"生成 → 看清 → 反解 → 执行"。我们一步步拆开看。

3.1 第一步：文本条件视频扩散模型——"想象"完成任务的过程

先说它在干嘛。给定当前这一帧画面（机器人眼前的场景）和一句任务描述（比如"打开抽屉"），这个模型要"脑补"出接下来会发生什么——生成一小段视频，画面里物体一步步被挪到任务完成的样子。

再说怎么实现。这是一个基于 U-Net 的扩散模型（扩散模型，简单说就是"先把一堆随机噪声，通过多步去噪、逐渐还原成一张有意义的图"的生成模型）。AVDC 的几个设计要点：

首帧作为条件：把初始帧 img₀ 在 RGB 通道维度上，拼接到所有待生成的未来帧上。这等于反复告诉模型"你画的每一帧，都要从这个场景出发"。论文实验发现，这种"通道拼接"的条件方式，比逐帧单独喂条件，在训练早期收敛得更快。

文本作为条件：用 CLIP 的文本编码器把指令编码成一个向量，再通过 Perceiver 注意力池化，融进扩散模型的时间步嵌入里。

一次生成固定 8 帧：模型一口气并行生成 T=8 帧未来画面，而不是一帧帧自回归地接龙。

时空分解卷积（factorized spatial-temporal convolution）：这是个效率技巧。处理视频本该用 3D 卷积，但太重；AVDC 把它拆成"先对每一帧做空间卷积、再沿时间轴对每个空间位置做时间卷积"。论文称这样几乎不损失画质，却大幅提升了训练和推理速度——整套模型在 Meta-World 上仅用 4 张 V100 训练约 24 小时即可。

训练目标就是标准的扩散去噪损失：让网络学会预测被加进画面的高斯噪声（均方误差 MSE）。注意——这一步训练，只需要视频本身，完全不需要动作标签。

3.2 第二步：稠密光流——看清每个像素怎么移动

视频生成好了，现在要"看清"画面里的东西到底怎么动了。

先说直觉。光流（optical flow），通俗讲就是"把前一帧的每个像素，跟后一帧里它跑到的新位置一一连起来的那张’位移地图’"。有了光流，我们就知道画面里每一个点，从这一帧到下一帧，在二维图像上挪了多远、往哪挪。

再说实现。 AVDC 在这里直接调用现成的 GMFlow（一个基于 Transformer 的光流估计器），完全不在自己的数据上重新训练它。对生成视频里相邻的每一对帧，GMFlow 都吐出一张稠密的像素级对应关系图。这一步是整套"零训练动作提取"理念的关键——连看清运动的工具都是开箱即用的。

3.3 第三步：解析反解 SE(3) 变换——从"像素移动"到"物体位姿变化"

这是 AVDC 最核心、也最巧妙的一步：把二维的像素位移，反解成三维世界里物体的刚体运动。

为什么是 SE(3)？ SE(3) 是描述三维空间中刚体运动的数学群，说人话就是"一个旋转 + 一个平移"的组合——任何刚体（比如一个杯子）在空间里的姿态变化，都能用这么一对 (R, t)（旋转矩阵 R、平移向量 t）完整描述。我们的目标就是求出：物体从这一帧到下一帧，经历了怎样的 (R, t)。

怎么解？流程是这样的：

从初始的 RGBD 图（带深度的彩色图）里，利用相机内参 K，把物体表面的像素点反投影成一组三维点 {xᵢ}。

借助第二步算出的光流，追踪这些点在后续每一帧里跑到了哪个二维位置。

求解一个刚体变换 Tₜ，使得"把三维点 xᵢ 经过 Tₜ 变换、再投影回二维图像"的结果，尽可能贴合光流观测到的实际二维位置。这本质是在最小化一个重投影误差（reprojection error）。

用 RANSAC（一种抗噪声的鲁棒拟合方法，能自动剔除少数离群的错误对应点）先在二维上找出可靠的对应，再据此从内点解出三维的旋转与平移。

解出 Tₜ 后，"物体该怎么动"就完全确定了。

3.4 把物体运动变成机器人动作 + 闭环重规划

最后一步，把"物体的位姿变化"翻译成"机器人末端执行器的动作"：

抓取假设：在物体上随机采样一个抓取点，假定夹爪抓住此处；那么物体的目标位姿，就直接决定了末端执行器的目标位姿。沿着解出的一连串 Tₜ，迭代生成一串子目标，用位置控制器依次去够到它们。

导航任务的小变体：在 iTHOR 导航里没有"被操作的物体"，移动的是相机本身。AVDC 把变换求逆 Cₜ = (Tₜ)⁻¹，就得到了第一人称相机的运动轨迹。

更妙的是闭环重规划（replanning）机制。开环执行难免有误差或卡住，AVDC 设了个简单触发条件：当机器人在连续 15 个时间步里移动不足 1 毫米、任务却还没完成，就判定"卡住了"，立刻从当前观测重新生成视频、重新解动作。论文的消融实验证明，这一招对成功率的提升至关重要。

核心公式与逻辑梳理

把前面三步流水线串成一条形式化链条，AVDC 的全过程可以浓缩成下面这几步：

输入：初始 RGB-D 画面 img0\text{img}_0img0 + 文本指令 txt\text{txt}txt。

想象：文本条件视频扩散模型生成未来 T=8T=8T=8 帧画面 img1:T\text{img}_{1:T}img1:T。

看清：GMFlow 在相邻帧之间算稠密二维光流 {(uti,vti)}\{(u_t^i, v_t^i)\}{(uti,vti)}。

反解：以深度 + 内参把首帧像素反投影成三维点 {xi}\{x_i\}{xi}，再求一组 Tt∈SE(3)T_t \in SE(3)Tt∈SE(3) 使得"先三维变换、再投回二维"贴合光流观测。

执行 + 闭环：用 IK 把 TtT_tTt 转成末端目标；连续 15 步动得不到 1 mm 就触发重规划。

下面挑出三条最核心的式子讲透。

(1) 视频扩散的去噪损失（训练目标）

LMSE=∥ε−εθ ⁣(1−βt img1:T+βt ε, t∣txt)∥2\mathcal{L}_{\text{MSE}} = \left\| \varepsilon - \varepsilon_\theta\!\left( \sqrt{1-\beta_t}\,\text{img}_{1:T} + \sqrt{\beta_t}\,\varepsilon,\ t \mid \text{txt} \right) \right\|^2LMSE=

ε−εθ(1−βt

img1:T+βt

ε, t∣txt)

符号说明：img1:T\text{img}_{1:T}img1:T 是一段干净的未来视频（T=8T=8T=8 帧）；ε∼N(0,I)\varepsilon \sim \mathcal{N}(0, I)ε∼N(0,I) 是采样到的高斯噪声；βt\beta_tβt 是第 ttt 步扩散的噪声强度（ttt 越大噪声越多）；εθ(⋅)\varepsilon_\theta(\cdot)εθ(⋅) 是 U-Net 去噪网络，它要在给定"加噪图 + 时间步 + 文本"的前提下把噪声预测回来；txt\text{txt}txt 经 CLIP 文本编码器后注入。

这条式子在做什么：完全是标准扩散模型的"预测噪声"目标，只不过条件里多了 txt\text{txt}txt。直觉上就是反复地把干净视频涂上不同强度的噪声、再让网络猜出噪声。关键在于整个训练只用 RGB 视频和文本，不需要任何动作标签——这是 AVDC 跨过"无动作视频"这道门槛的根本所在。注意 img0\text{img}_0img0 不出现在损失里：它是以"通道拼接"的方式硬塞进 εθ\varepsilon_\thetaεθ 的输入中，等于每一帧都被告知"你从这个场景出发"。

(2) 几何反解 SE(3)：最小化重投影误差

LTrans=∑i∥uti−(KTtxi)1(KTtxi)3∥22+∥vti−(KTtxi)2(KTtxi)3∥22\mathcal{L}_{\text{Trans}} = \sum_i \left\| u_t^i - \frac{(K T_t x_i)_1}{(K T_t x_i)_3} \right\|_2^2 + \left\| v_t^i - \frac{(K T_t x_i)_2}{(K T_t x_i)_3} \right\|_2^2LTrans=i∑

uti−(KTtxi)3(KTtxi)1

22+

vti−(KTtxi)3(KTtxi)2

符号说明：xi∈R3x_i \in \mathbb{R}^3xi∈R3 是首帧反投影出的第 iii 个三维点（用相机内参 KKK 和深度图算出）；Tt∈SE(3)T_t \in SE(3)Tt∈SE(3) 是我们要求解的、物体在第 ttt 帧的刚体变换（一个 4×44\times 44×4 齐次矩阵，包含旋转 RRR 和平移 ttt）；KTtxiK T_t x_iKTtxi 把三维点先变换到第 ttt 帧、再用内参投到相机平面（齐次坐标）；(⋅)1,(⋅)2,(⋅)3(\cdot)_1, (\cdot)_2, (\cdot)_3(⋅)1,(⋅)2,(⋅)3 分别取齐次坐标的三个分量，除以第三个分量是标准的透视除法；(uti,vti)(u_t^i, v_t^i)(uti,vti) 是光流告诉我们的"该点跑到了图像上的哪里"。

这条式子在做什么：它就是经典的重投影误差——把"我猜的三维运动"投回二维，看和"光流观测到的二维位移"差多少，差距越小越好。整个 LTrans\mathcal{L}_{\text{Trans}}LTrans 关于 TtT_tTt 的最小化是闭式可解的几何问题（配合 RANSAC 剔除离群点），根本不需要训练。把这条式子和上面那条对照看，就能体会到 AVDC 最关键的取舍：第一阶段"想象未来"用学习，第二阶段"反解动作"用几何，二者各占一段、互不打扰。

(3) 闭环重规划的触发条件

Replan if max⁡t−14≤s≤t∥ps−ps−1∥<1 mm 且任务未完成\text{Replan}\ \ \text{if}\ \ \max_{t-14 \le s \le t}\|p_s - p_{s-1}\| < 1\,\text{mm}\ \ \text{且任务未完成}Replan if t−14≤s≤tmax∥ps−ps−1∥<1mm 且任务未完成

符号说明：psp_sps 是机器人末端执行器在第 sss 步的三维位置；式子右边写得通俗些就是"连续 15 步里每一步的位移都不到 1 毫米"；"任务未完成"由环境给出的成功信号判定。

这条式子在做什么：它是一个非常朴素的"卡住检测器"。一旦判定卡住，就把当前帧重新喂给视频扩散模型再"想"一次、重新解一遍 TtT_tTt。消融实验里去掉重规划成功率从 43.1% 跌到 19.6%，说明 AVDC 那"先开环、卡住才重想"的策略，本质上是用极便宜的方式给纯生成式规划兜了底。

四、实验怎么做·结果说明了什么

AVDC 在三类场景上做了验证：仿真操作（Meta-World）、仿真导航（iTHOR）、真机（Franka Panda）。

4.1 Meta-World：11 个操作任务

训练数据极省——11 个任务、3 个相机视角、每个任务仅 5 条演示，共 165 段视频。整体表现：

方法

整体成功率

是否需动作标注

AVDC（完整版）

43.1%

否

BC-Scratch（从零行为克隆）

16.2%

是

BC-R3M（用 R3M 预训练特征）

15.4%

是

UniPi（改造版，喂了动作标注）

6.1%

是

AVDC（去掉重规划）

19.6%

否

AVDC（仅用光流、不解 SE(3)）

13.7%

否

怎么解读这组数字？最戳人的一点是：AVDC 不用任何动作标注，却把那些用了动作标注的行为克隆基线（16.2%、15.4%）甩开了一大截。而专门改造来吃动作标注的 UniPi 只有 6.1%——这说明在如此少的演示下，"先想象未来、再用几何反解"的范式，比"直接学映射"或"学 IDM"都更省数据、更稳。

具体到单个任务，差异也很说明问题：开关门、按把手这类"刚体整体平移/转动"的任务成功率很高（开门 72%、关门 89.3%、按把手 81.3%）；而 Hammer（8%）、Assembly（6.7%）这类需要精细对位、富接触的任务则很吃力——这恰恰暴露了纯几何反解的边界（后面"局限"会展开）。

4.2 iTHOR 导航

12 类目标物 × 4 种房间、每组 20 个回合：

方法

整体成功率

AVDC

31.3%

BC-Scratch

2.1%

BC-R3M

0.4%

行为克隆基线几乎全军覆没（2.1%、0.4%），AVDC 的 31.3% 是压倒性的。这说明"先想象一段第一人称的行进画面、再反解相机轨迹"的思路，在导航上同样成立。

4.3 跨本体迁移：从人类视频到机器人

一个亮眼的设定：用 198 段人类手推物体的视频训练，然后零样本迁移到机器人推物任务上——40 次试验中成功率达 90%。这有力佐证了"几何式动作提取天然跨本体"的论断：人手怎么把物体推过去，和机械臂怎么把物体推过去，在"物体位移"这个抽象层面是一回事。

4.4 真机 Franka Panda

先在 Bridge 数据集（33,078 段视频）上训练，再用 20 段人类桌面演示微调。论文对失败做了归因：75% 的失败源于"想象的计划本身就错了"，25% 源于"生成视频不连贯导致光流追踪断裂"——这把后续改进的方向指得很清楚：瓶颈在第一阶段的视频生成质量，而非第二阶段的几何反解。

4.5 关键消融

重规划的价值：去掉重规划，成功率从 43.1% 跌到 19.6%——几乎腰斩。而且成功率随着允许的最大重规划次数（1→5 次）单调上升。

物体分割的影响：用预测掩码（Language Segment-Anything）替代真值掩码，成功率从 43.1% 降到 34.5%（−8.6%），说明分割误差会传导，但整体仍可用。

文本编码器：CLIP 与 T5-base 几乎无差别——说明指令编码不是瓶颈。

五、亮点与为什么重要

把动作提取从"学习"变成"解析"：这是 AVDC 最大的概念贡献。第二阶段零训练、零动作标注，整套系统只需训一个视频生成器，极大降低了对昂贵机器人数据的依赖。

首次把"无动作视频"真正用起来：它兑现了那个诱人的承诺——互联网上海量没标注的视频，确实可以直接喂给机器人学习，因为动作信息本就冗余地藏在画面变化里。

天然跨本体："物体该怎么动"与机器人形态无关，所以人类视频能直接迁移到机器人（90% 的推物成功率就是明证）。

可解释、可调试：失败时能清楚归因到"是计划错了还是视频不连贯"，这在端到端黑盒策略里是很难做到的。

它是几何式级联 WAM 的开山之作——后面 Im2Flow2Act、3DFlowAction 把光流这条线越做越深，Dreamitate、RIGVid 则换成物体/工具位姿跟踪，但"用几何而非学习来反解动作"的火种，是 AVDC 点燃的。

六、局限与未解

AVDC 自己也坦承了几处硬伤，大多源于"纯几何反解"和"光流"的固有约束：

遮挡是死穴：机械臂自己挡住了被操作物体，光流就追丢了。

光流不耐受剧烈变化：光照骤变、物体大幅快速运动时，光流估计会崩，进而连累几何反解。

抓取与接触无法跨形态迁移：“物体位移"虽与本体无关，但"怎么抓住它”"接触力多大"却高度依赖具体夹爪——这部分信息几何反解给不出。

拿不到力的信息：RGB 画面里看不见力，所以富接触、需要力控的精细任务（如 Hammer、Assembly）表现差。

低分辨率放大误差：视频分辨率低时，光流里几个像素的小误差，经过反投影会被放大成三维空间里的大误差。

归根结底，AVDC 把成败押在了"第一阶段视频生成得准不准"上（真机失败 75% 都怪计划错了）。这也解释了为什么后续工作要么去改进生成的中间表征（从 2D 流升到 3D 流），要么干脆绕开像素生成（在潜在空间里直接生成流）。

七、在 WAM 谱系中的位置

AVDC 处在级联式 WAM 的"像素空间 + 几何提取"分支的最上游：

承上：它继承了 UniPi"先生成执行视频、再提取动作"的两阶段蓝图，但把第二阶段从"学习式 IDM"换成了"解析式几何反解"，去掉了动作标注的枷锁。

启下：它定义了一条清晰的技术脉络——

Im2Flow2Act（第 14 篇）：嫌像素级视频生成太慢，干脆在潜在空间直接生成光流，绕开 RGB 合成；

3DFlowAction（第 16 篇）：嫌二维光流丢了旋转和深度信息，把流从 2D 提升到 3D；

NovaFlow、Dream2Flow：把范式推到极致，连第一阶段都用现成的视频生成大模型零训练完成；

Dreamitate（第 15 篇）、RIGVid：换一条几何提取路线——不追光流，而是跟踪工具/物体的 6DoF 位姿。

可以说，AVDC 用一套优雅的几何反解，为整个"级联式 WAM → 像素空间 → 几何式动作提取"家族奠定了方法论基石：世界模型负责想象未来，几何负责把未来翻译成动作，二者各司其职、互不打扰。

八、参考

论文：Po-Chen Ko, Jiayuan Mao, Yilun Du, Shao-Hua Sun, Joshua B. Tenenbaum. Learning to Act from Actionless Videos through Dense Correspondences.

会议：International Conference on Learning Representations (ICLR), 2024.

arXiv：https://arxiv.org/abs/2310.08576

注：本文为基于该论文的学习性解读，所有方法、数据集与数值均来自论文公开信息，方法名称保留英文原名以便检索。

【WAM篇】13：AVDC——只看“无动作的视频“，就能解出机器人该怎么动

💡 相关推荐

《永恒之塔2》剑星基础介绍

莲心茶一次泡多少粒？泡花茶的精髓就在这个比例！

令 (紙張單位)

🤝 友情链接