| # | 论文 | 时间 | 会议 | 加速对象 | 核心技术 | 加速倍数 |
|---|---|---|---|---|---|---|
| 1 | WorldCache | 2026.03 | arXiv | Denoising / Token Generation | 异构 Token 缓存 + 混沌优先自适应跳过 | 3.7× |
| 2 | TempCache + AnnCA/AnnSA | 2026.02 | arXiv | Attention / KV Cache / Memory | 时序 KV 缓存压缩 + 近似最近邻稀疏注意力 | 5-10× |
| 3 | Sparse Imagination | 2025.06 | ICLR 2026 | Rollout / Planning | 稀疏想象 - 仅对未来关键帧展开 | ~3× |
| 4 | Masked Generative Priors (MGP) | 2024.10 | arXiv | Token Generation | MaskGIT 式并行解码替代自回归生成 | ~5× |
| 5 | NoiseGate | 2026.05 | arXiv | Denoising / Early Exit | 逐 latent 可学习噪声调度 = 信息门控 | 自适应 |
| 6 | DexWorldModel (CLWM) | 2026.04 | arXiv | Memory / Denoising | O(1) Memory + 推测性异步推理 (SAI) | ~2× (延迟) |
| 7 | DeltaWorld + DeltaTok | 2026.04 | CVPR 2026 | Token Generation / Memory | 帧间差分压缩至单 token (1024× 压缩) | 2000× FLOPs |
| 8 | Realtime-VLA FLASH | 2026.05 | arXiv | Denoising / Planning | 轻量草稿模型 + 并行验证 = 推测推理 | 3.04× |
| 9 | A³ (Dynamic Execution) | 2026.05 | arXiv | Planning / Execution | 自适应动作接受 = 前缀验证问题 | 动态 |
| 10 | VLA-Cache | 2025.02 | NeurIPS 2025 | Token Generation / Memory | 自适应视觉 token 缓存 | ~2× |
加速对象:Diffusion World Model 的迭代去噪过程 — 每次 rollout 需数百步去噪,WorldCache 跳过大部分冗余去噪步。
Diffusion 世界模型每预测一帧要做几十到几百次去噪迭代,太慢了。WorldCache 发现:大部分 token 的去噪轨迹高度可预测,只有少数"混沌 token"需要精确计算。它用曲率信号预测哪些 token 可以缓存复用、哪些必须重新计算,实现 3.7× 加速且质量几乎不降。核心洞见:不是所有 token 平等——世界模型中的 token 异构性远比图像生成严重。
1) Diffusion 世界模型统一仿真潜力大,但迭代去噪阻碍交互式应用和长 horizon rollout。
2) 已有 feature caching 针对单模态 diffusion 设计,迁移到世界模型失效——因为:
(a) token 异构性:多模态耦合(视觉+动作+文本)和空间变化导致 token 行为高度分化;
(b) 非均匀时序动态:少数"硬 token"的错误快速传播,均匀跳过策略要么不稳定要么过于保守。
3) WorldCache 专为扩散世界模型设计:曲率引导的异构 token 预测 + 混沌优先自适应跳过。
在多个 Diffusion World Model 上验证(含 Diamond 等)。指标:FVD(视频质量)、SSIM、LPIPS、端到端加速比。WorldCache 达 3.7× 加速、保持 98% rollout 质量。
局限:曲率计算需额外前向传播;对极端分布外场景敏感。
启发:(1) 可结合量化进一步压缩缓存;(2) 学习型 token 重要性预测器替代曲率;(3) 扩展到视频扩散世界模型(ARVD)的 KV cache 场景。
加速对象:自回归视频扩散模型的 Attention / KV Cache / GPU Memory — 特别是长 rollout 时 KV cache 线性增长导致延迟和显存爆炸。
自回归视频扩散模型每生成一帧,attention 的 KV cache 就变长,越来越慢、越来越吃显存。这篇论文发现了三种冗余来源:①帧间高度相似的 key;②语义缓慢变化的 query/key;③cross-attention 中大部分 prompt token 与当前帧无关。提出三个即插即用模块分别解决这三个问题,实现 5-10× 加速,并且长 rollout 时吞吐量稳定、显存不再增长。
1) 自回归视频扩散模型(ARVD)是流式视频生成和世界模型的核心架构,但 attention 层是推理瓶颈。
2) 随生成进行,KV cache 线性增长 → 延迟↑ + 显存↑ → 限制可用时序上下文 → 损害长程一致性。
3) 识别出三种持久冗余:近重复 cache key、慢变语义向量、prompt 中的不相关 token。
在多个 ARVD backbone 上验证,覆盖视频生成和世界模型任务。长 rollout 下保持稳定吞吐量和恒定峰值显存,此前方法均随时间降速和显存爆炸。
局限:近似最近邻索引本身有开销;稀疏化阈值需手动调参。
启发:(1) 可学习 ANN 索引(端到端训练稀疏 mask);(2) 与 WorldCache 互补(KV 层面 + 去噪层面);(3) 适用于所有自回归视频世界模型(如 Genie 系列)。
加速对象:Visual World Model 的 rollout 过程 — 传统方法需要逐帧展开整个想象轨迹,Sparse Imagination 只对关键决策帧展开。
世界模型规划时,传统方法一帧一帧地"想象"未来,但大多数帧几乎没有新信息。Sparse Imagination 学会了"跳着想象"——只在任务关键节点展开世界模型,中间用轻量插值替代。这大幅减少了世界模型调用次数,同时保持决策质量。对机器人等资源受限场景尤其关键。
1) 基于世界模型的规划极大改善了复杂环境中的决策,但计算负担在机器人等资源严重受限的场景中尤其突出。
2) 现有方法在 latent space 中密集展开轨迹,许多步骤冗余——环境状态在相邻步之间变化微乎其微。
3) 提出 Sparse Imagination:学习识别哪些未来帧对决策至关重要,仅在这些关键帧展开世界模型。
在多个视觉控制任务(DMControl、Meta-World)和机器人操作任务上验证。达成 ~3× rollout 加速,策略性能基本持平。
局限:Skip gate 训练需额外标注或 RL 信号;极端动态场景可能不稳定。
启发:(1) 与 token pruning 结合(空间+时序稀疏);(2) 自适应 skip 步长(动态场景多展开,静态少展开);(3) 可扩展到视频 diffusion 世界模型的去噪步跳过。
加速对象:World Model 的 token 生成方式 — 从逐 token 自回归生成 → 并行掩码生成(MaskGIT-style),实现一次前向生成多帧。
传统世界模型一帧一帧、一个 token 一个 token 地自回归"想象"未来,和 GPT 生成文字一样慢。这篇论文把 MaskGIT 的并行解码思想引入世界模型:先预测容易的部分,再逐步填补细节。一次前向传播就能生成多个未来帧,不再需要串行等前面帧生成完。
1) 深度 RL 中基于模型的方法利用世界模型进行规划和想象,但自回归序列建模推理慢。
2) MaskGIT 式并行解码已在图像生成中成功,但在世界模型的序列建模中探索不足。
3) 掩码生成先验(MGP)可同时改进世界模型的序列建模质量和推理速度。
在 Atari 100K 和 DMControl 等标准 MBRL benchmark 上验证。显著加速序列生成(~5×),同时改进长期预测质量。
局限:并行解码仍需多步迭代(K 步),不如纯前馈快;掩码策略设计依赖任务特点。
启发:(1) 将并行解码用于 world model 的 planning rollout(一次并行生成多步未来);(2) 与 Diffusion Forcing 结合——并行 + 扩散融合。
加速对象:Diffusion World Action Model 的去噪过程 — 每个 latent frame 不再需要到同一噪声水平。本质是"信息门控"形式的 early exit。
传统 diffusion 世界模型对所有预测帧用同一个噪声水平,但推理时不同帧需要的信息量不同——近处需要精确去噪,远处粗略即可。NoiseGate 给每帧分配不同的"信息通过量":对动作决策重要的帧给更多去噪步,不重要的帧提前退出。这是一种去噪级别的 early exit / adaptive computation。
1) World Action Models 将感知-预测-控制耦合在一个扩散过程中,但现有系统把所有 latent frame 绑在同一时间步。
2) "噪声作为掩码"视角下,统一时间步强加了不合理的先验——假设每个预测帧对动作生成同等可靠。
3) NoiseGate 将逐帧时间步视为可学习的信息门控策略:改变一帧的噪声水平 = 调节其对动作 token 的 Key/Value 贡献可靠性。
在 RoboTwin 多种随机场景操作任务上验证,基于联合 video-action MoT backbone。一致增益。
局限:Gating Policy Network 需要任务奖励训练;目前限于操作任务。
启发:(1) 信息门控思想可推广到所有 diffusion world model;(2) 与 speculative decoding 结合——对高噪声帧用草稿模型、低噪声帧用主模型;(3) 作为 diffusion forcing 的增强版。
加速对象:(1) Memory — O(T) → O(1) 长 horizon 推理;(2) Denoising — 推测性异步推理 (SAI) 将去噪掩藏在物理执行背后。
操作机器人的世界模型有个致命问题:随着任务变长,存储"记忆"所需的显存线性增长,推理延迟也线性增长。CLWM 解决了两件事:用双状态 TTT Memory 把内存压到 O(1);用"推测性异步推理"让去噪和物理执行并行——机器人一边执行上一步预测的动作,一边在后台去噪下一步,延迟砍半。
1) 部署生成式 World-Action Models 进行操作受三个瓶颈制约:冗余像素重建、O(T) 内存缩放、串行推理延迟。
2) CLWM 用 DINOv3 特征替代像素重建 → 解耦交互语义与视觉噪声 → 强域泛化。
3) 双创新:Dual-State TTT Memory (O(1) 内存) + Speculative Asynchronous Inference (延迟减半)。
复杂双臂仿真 + 零样本 sim-to-real 迁移到真机。CLWM 超过显式用真实数据微调的基线。
局限:SAI 依赖动作预测与物理执行时间匹配;只在操作任务验证。
启发:(1) SAI 可与 FLASH 的草稿模型结合;(2) O(1) memory 方案可推广到其他长 horizon 世界模型。
加速对象:Token 生成效率 — 将视频从 3D 时空表示压缩到 1D 时序序列(1024× token 减少),极大降低世界模型计算量。
DeltaWorld 的核心思想极其优雅:连续帧之间的变化信息其实很少。它不直接编码每一帧,而是编码"帧间差分"到一个单 token(DeltaTok)。这样一整个视频序列就压缩成了 1D 的 token 序列,世界模型只需处理这个序列即可。参数量减少 35×、FLOPs 减少 2000×,是当前最高效的生成式世界模型之一。
1) 判别式世界模型输出确定性预测(隐含平均化多种可能),生成式世界模型计算昂贵。
2) 在 VFM 特征空间预测(而非像素 latent)已证明更高效,但主流方法仍是判别式。
3) DeltaTok + DeltaWorld:在 VFM 特征空间中编码帧间差分 → 单 delta token → 3D→1D 压缩。
在密集预测任务上验证。35× 更少参数、2000× 更少 FLOPs,预测质量与真实结果更贴合。CVPR 2026 接收。
局限:依赖 VFM 特征质量;delta 编码可能丢失帧间细粒度信息。
启发:(1) DeltaTok 可与其他加速方法(WorldCache、TempCache)叠加;(2) 多假设训练是极简但高效的多样性建模方案;(3) 可扩展到 action-conditioned 操作场景。
加速对象:Diffusion VLA 的全推理延迟 — 通过"推测解码"思想,大部分重规划回合跳过完整去噪,用轻量草稿+并行验证替代。
扩散 VLA 模型每次决策需要完整去噪(58ms),但高频重规划时大部分情况不需要精确计算。FLASH 借鉴 LLM 的 speculative decoding:用一个超轻量草稿模型快速预测动作,然后用主模型的 Action Expert 做并行验证。如果草稿合格就直接执行(7.8ms),不合格才回退到完整推理。最终平均延迟降到 19.1ms(3× 加速),且任务成功率几乎不降。
1) Diffusion VLA 对具身智能很有前景,但完整推理的高延迟阻碍实时部署。
2) 核心洞察:重规划时大部分推理结果与上次相似——存在巨大冗余。
3) FLASH 三组件:轻量草稿模型 + 并行验证(Action Expert)+ 阶段感知回退机制。
LIBERO benchmark + 真实传送带分拣。任务成功率基本保持,延迟从 58ms → 19.1ms。
局限:草稿模型需额外训练;性能取决于回退机制设计。
启发:(1) 将 speculative decoding 推广到 diffusion world model 的 rollout(而非仅 VLA 决策);(2) 多层级草稿(不同精度/速度的 world model);(3) 与 NoiseGate 结合——对已被门控"跳过"的帧用草稿。
加速对象:VLA 的执行规划效率 — 传统固定 horizon 的 action chunking 要么浪费推理(chunk 太短),要么不可靠(chunk 太长)。A³ 自适应决定执行多少步。
VLA 模型一次性预测一串动作(action chunking)来分摊推理成本。但到底该预测多少步?太短→频繁推理,浪费算力;太长→预测不准,导致失败。A³ 将这个问题重新定义为"推测解码中的前缀验证问题"——用自一致性检查来判断每一步预测是否可靠,只执行最长的可靠前缀。无需手工调 horizon。
1) Action chunking 摊销大模型推理成本,但固定 horizon 是脆弱的启发式策略。
2) 可靠性是状态依赖的——动态场景下短 horizon 更安全,静态场景可以更长。
3) A³ 将动态执行承诺重新定义为自我推测性前缀验证:两大约束 → 最长可验证前缀。
多种 VLA 模型和 benchmark。消除手工 horizon 调参,同时实现更好的可靠性-吞吐量 trade-off。
局限:验证需要额外前向传播;group sampling 增加总计算量(但减少推理次数)。
启发:(1) 前缀验证思想可扩展到 world model rollout(只展开被验证可靠的帧);(2) 与 Sparse Imagination 互补——稀疏展开 + 自适应承诺。
加速对象:VLA 模型的视觉 token 计算 — 机器人操作中相邻帧大量视觉 token 几乎不变,自适应缓存避免重复编码。
VLA 模型每步都要重新编码整个视觉输入,但操作过程中大量视觉 token 几乎不变(背景、桌面等)。VLA-Cache 自适应识别哪些 token 与上一步相同、哪些发生了变化,只对变化的 token 重新计算。这是一个直观但有效的 idea——为机器人操作中帧间高度相关这一特点量身定制。
1) VLA 模型端到端从视觉和指令生成动作,但计算量大阻碍实时控制。
2) 现有加速方法依赖启发式或静态策略——如基于规则的 token 剪枝。
3) VLA-Cache 自适应 token 缓存:学习识别帧间不变 token,仅重新编码变化部分。
在多种机器人操作任务上验证。~2× 推理加速,任务成功率基本保持。NeurIPS 2025 接收。
局限:性能依赖帧间视觉重叠度;极端视角变化时缓存失效。
启发:(1) 与 DeltaTok 互补——token 级缓存 vs. 特征级差分压缩;(2) 可扩展到 diffusion world model 的去噪缓存;(3) 学习型缓存策略优于手工启发式。
加速对象:视觉预测 → 用图像编辑替代密集视频生成。
核心思想:大部分操作任务的进展可由少数任务相关视觉状态概括——与其生成整个视频,不如用图像编辑模型只编辑任务相关的物体/区域。密集视频生成 → 稀疏状态编辑。
启发:概念上类似 Sparse Imagination 但用编辑模型实现——"编辑未来"而非"渲染未来"。
加速对象:Rollout 质量控制 → 减少无效想象。
核心思想:长 horizon 想象中模型误差复合导致轨迹漂移。GIRL 用信息论方法控制"幻觉"——检测并终止已偏离训练流形的想象轨迹,避免在无效想象上浪费计算。
启发:与 Sparse Imagination 互补——GIRL 决定"何时停止想象",Sparse Imagination 决定"哪里跳过帧"。
加速对象:VLA 的思维链推理延迟。
核心思想:具身思维链 (ECoT) 通过中间推理步骤提升 VLA,但串行 token 生成引入显著延迟。Fast ECoT 缓存并复用跨时间步的"思维 token",避免重复推理。
启发:在 world model 中缓存"世界状态理解"的中间表示。
加速对象:ARVD 推理效率 — 模型量化。
核心思想:自回归视频扩散模型的量化与前向扩散模型不同——帧间误差累积导致指数衰减的量化敏感度、异质离群 channel。Q-ARVD 提出最终质量感知帧加权 + 离群感知自适应双尺度量化。
启发:WorldCache + 量化 = 缓存+低精度双加速。
加速对象:VLA 视觉编码。
核心思想:与 VLA-Cache 类似但更强调学习型策略——学出来的 token 保留/丢弃策略优于规则型剪枝。用轻量 policy network 在推理时动态决定每个视觉 token 的缓存策略。
加速对象:LLM+World Model 的延迟解耦。
核心思想:云端 LLM 推理延迟超出自车控制窗口。SteinsGate Drive 将未来生成和动作选择从紧耦合的大循环中解耦——world model 预计算多条未来轨迹,LLM 异步做语义仲裁。
启发:latency-decoupled 架构是加速 world model 部署的关键范式。
核心思想:将 LLM 的 speculative decoding 范式系统性地移植到 world model rollout。
现有基础:
• Realtime-VLA FLASH 展示了 diffusion VLA 层面的推测推理(草稿+验证)
• NoiseGate 展示了去噪级别的自适应计算(信息门控)
• Sparse Imagination 展示了 rollout 级别的稀疏化(跳帧)
具体方案:
① 训练一个极轻量的小 world model (~1% 参数量) 作为"草稿模型"
② 小模型快速展开 N 步未来(粗略但快速)
③ 大模型以并行方式验证草稿的每一步(类似 Action Expert 的并行验证)
④ 只对被拒绝的步重新精确展开
⑤ 预期加速:在保持精度的前提下达到 3-5× rollout 加速
与现有工作的区别:FLASH 在 VLA 决策层面做推测,本方向在 world model 的 latent rollout 层面做推测——这是两个不同但互补的层级。
核心思想:当前缓存(WorldCache)、压缩(TempCache)、剪枝(Sparse Imagination)、量化(Q-ARVD)各自独立工作。设计一个统一的、端到端可训练的 token 级加速框架。
现有基础:
• WorldCache 做去噪 token 的缓存(曲率判断)
• TempCache 做 attention KV 的压缩(时序对应)
• DeltaTok 做帧间 token 压缩(差分编码)
• Q-ARVD 做模型权重的量化
具体方案:
① 为每一个 latent token 学习三个属性:重要性分数、压缩率、精度需求
② 重要性分数决定是否缓存/跳过(融合 WorldCache + Sparse Imagination)
③ 压缩率决定 KV cache 压缩程度(融合 TempCache + DeltaTok)
④ 精度需求决定量化比特数(融合 Q-ARVD)
⑤ 通过可微搜索或 RL 联合优化这些策略
优势:统一框架可发现各加速技术之间的协同效应(如高压缩 token 可同时用低精度),给出帕累托最优的精度-速度 trade-off。
核心思想:将 NoiseGate 的"逐 latent 时间步"推广为完全的逐 token、逐去噪步的自适应计算——让模型自己学会每条去噪链在何处"足够好"就可以提前退出。
现有基础:
• NoiseGate:逐 latent 时间步作为信息门控,但仍在固定去噪框架内
• 图像 diffusion 的 early exit 工作(如 DeepCache、TokenCache)
• 动态网络中的自适应计算(如 PonderNet、ACT)
具体方案:
① 在 diffusion world model 的每个去噪步插入轻量"置信度预测器"
② 预测器输出:当前 token 的去噪是否已足够做出正确的下游决策
③ 训练目标:最小化去噪步数 + 最大化下游决策准确率(多目标 RL 或 bi-level optimization)
④ 推理时:每步检查置信度,达标 → 提前退出该 token 的去噪链
与 NoiseGate 的区别:NoiseGate 学习的是每帧的"静态"时间步策略,本方向是真正的运行时动态 early exit——每个 token 的去噪步数根据当前状态实时决定。可看作 NoiseGate + 实时决策。
| 加速类别 | 代表论文 | 加速环节 | 核心机制 |
|---|---|---|---|
| Token 缓存与压缩 | WorldCache | 去噪 token | 曲率引导异构缓存 + 混沌优先跳过 |
| TempCache | KV cache | 时序对应压缩 + ANN 稀疏注意力 | |
| DeltaTok | 帧 token | 帧间差分 → 单 token(1024× 压缩) | |
| 稀疏 Rollout / 跳帧 | Sparse Imagination | 时序展开 | 可学习 skip gate → 关键帧展开 |
| SWEET | 视觉预测 | 图像编辑替代密集视频生成 | |
| 并行解码 | Masked Gen Priors | Token 生成 | MaskGIT-style 并行掩码预测 |
| A³ | Action 执行 | 推测性前缀验证 | |
| 推测推理 | Realtime-VLA FLASH | 扩散去噪 | 草稿模型 + 并行验证 |
| CLWM (SAI) | 去噪延迟 | 异步去噪(去噪与被物理执行掩盖) | |
| SteinsGate Drive | LLM+WM 耦合 | 延迟解耦:预计算+异步仲裁 | |
| Early Exit / 自适应计算 | NoiseGate | 去噪步 | 逐 latent 可学习噪声调度 |
| GIRL | Rollout 终止 | 信息论幻觉检测 → 提前终止 | |
| 模型量化 | Q-ARVD | 权重/激活 | 帧感知加权 + 离群自适应量化 |
| Memory 效率 | CLWM (TTT) | Memory 缩放 | O(T) → O(1) via TTT compression |
| VLA-Cache | 视觉编码 | 自适应 visual token 复用 |
| 论文 | 年份 | 贡献 | 与加速的关系 |
|---|---|---|---|
| DreamerV3 (Hafner et al.) | 2023 | 通用 world model 架构:RSSM + actor-critic 在 latent imagination 中训练 | 被加速的主要 target——Dreamer 系列的 rollout 是典型瓶颈 |
| TD-MPC2 (Hansen et al.) | 2024 | Model-based RL 的 SOTA:latent dynamics + planning + policy 统一 | planning 中的 latent rollout 加速是核心需求 |
| Diffusion Forcing (Chen et al.) | 2024 | 扩散模型做序列生成:每 token 独立噪声水平,灵活 teacher forcing | NoiseGate 的直接前身;per-token timestep 的思想源头 |
| Genie (Bruce et al.) | 2024 | 从互联网视频学交互式世界模型,可控制虚拟角色 | 自回归视频世界模型加速的代表性 target |
| Diamond (Alonso et al.) | 2024 | Diffusion world model 在 Atari 上训练 RL agent | WorldCache 加速的直接对象之一 |
| MaskGIT (Chang et al.) | 2022 | 掩码生成图像 Transformer:并行解码替代自回归 | Masked Generative Priors 的灵感来源 |