🚀 World Model Acceleration — Paper Survey

生成日期: 2026-05-24 | 研究主题: World Model 推理加速 | 来源: arXiv, ICLR, NeurIPS, CVPR, CoRL 等
📑 目录
  1. 论文速览总表
  2. 最值得重点阅读的 10 篇论文
  3. 扩展阅读 (15+ 篇)
  4. 可做的 3 个创新方向
  5. 加速技术分类图谱

📊 论文速览总表

#论文时间会议加速对象核心技术加速倍数
1 WorldCache 2026.03 arXiv Denoising / Token Generation 异构 Token 缓存 + 混沌优先自适应跳过 3.7×
2 TempCache + AnnCA/AnnSA 2026.02 arXiv Attention / KV Cache / Memory 时序 KV 缓存压缩 + 近似最近邻稀疏注意力 5-10×
3 Sparse Imagination 2025.06 ICLR 2026 Rollout / Planning 稀疏想象 - 仅对未来关键帧展开 ~3×
4 Masked Generative Priors (MGP) 2024.10 arXiv Token Generation MaskGIT 式并行解码替代自回归生成 ~5×
5 NoiseGate 2026.05 arXiv Denoising / Early Exit 逐 latent 可学习噪声调度 = 信息门控 自适应
6 DexWorldModel (CLWM) 2026.04 arXiv Memory / Denoising O(1) Memory + 推测性异步推理 (SAI) ~2× (延迟)
7 DeltaWorld + DeltaTok 2026.04 CVPR 2026 Token Generation / Memory 帧间差分压缩至单 token (1024× 压缩) 2000× FLOPs
8 Realtime-VLA FLASH 2026.05 arXiv Denoising / Planning 轻量草稿模型 + 并行验证 = 推测推理 3.04×
9 A³ (Dynamic Execution) 2026.05 arXiv Planning / Execution 自适应动作接受 = 前缀验证问题 动态
10 VLA-Cache 2025.02 NeurIPS 2025 Token Generation / Memory 自适应视觉 token 缓存 ~2×

📄 最值得重点阅读的 10 篇论文

1. WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching
2026.03 arXiv:2603.06331 Diffusion World Model 复现价值: High

Diffusion World Model 的迭代去噪过程 — 每次 rollout 需数百步去噪,WorldCache 跳过大部分冗余去噪步。

通俗总结

Diffusion 世界模型每预测一帧要做几十到几百次去噪迭代,太慢了。WorldCache 发现:大部分 token 的去噪轨迹高度可预测,只有少数"混沌 token"需要精确计算。它用曲率信号预测哪些 token 可以缓存复用、哪些必须重新计算,实现 3.7× 加速且质量几乎不降。核心洞见:不是所有 token 平等——世界模型中的 token 异构性远比图像生成严重。

Introduction 核心论点

1) Diffusion 世界模型统一仿真潜力大,但迭代去噪阻碍交互式应用和长 horizon rollout。
2) 已有 feature caching 针对单模态 diffusion 设计,迁移到世界模型失效——因为:
  (a) token 异构性:多模态耦合(视觉+动作+文本)和空间变化导致 token 行为高度分化;
  (b) 非均匀时序动态:少数"硬 token"的错误快速传播,均匀跳过策略要么不稳定要么过于保守。
3) WorldCache 专为扩散世界模型设计:曲率引导的异构 token 预测 + 混沌优先自适应跳过。

核心方法

┌─────────────────────────────────────────────────────┐ │ WorldCache 框架 │ │ │ │ ① Curvature-guided Heterogeneous Token Prediction │ │ ┌──────────┐ curvature ┌──────────────┐ │ │ │ 去噪步t │ ──score计算──→ │ token分类 │ │ │ └──────────┘ │ 可预测/混沌 │ │ │ └──┬───────────┘ │ │ 可预测token → 缓存复用 │ │ 混沌token → Hermite阻尼预测 │ │ │ │ ② Chaotic-prioritized Adaptive Skipping │ │ ┌──────────┐ drift信号累积 ┌─────────────┐ │ │ │ 跳过步 │ ────────────→ │ 漂移>阈值? │ │ │ └──────────┘ │ → 重新计算 │ │ │ └─────────────┘ │ └─────────────────────────────────────────────────────┘

实验

在多个 Diffusion World Model 上验证(含 Diamond 等)。指标:FVD(视频质量)、SSIM、LPIPS、端到端加速比。WorldCache 达 3.7× 加速、保持 98% rollout 质量。

局限与启发

局限:曲率计算需额外前向传播;对极端分布外场景敏感。
启发:(1) 可结合量化进一步压缩缓存;(2) 学习型 token 重要性预测器替代曲率;(3) 扩展到视频扩散世界模型(ARVD)的 KV cache 场景。

2. Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention
2026.02 arXiv:2602.01801 Video World Model 复现价值: High

自回归视频扩散模型的 Attention / KV Cache / GPU Memory — 特别是长 rollout 时 KV cache 线性增长导致延迟和显存爆炸。

通俗总结

自回归视频扩散模型每生成一帧,attention 的 KV cache 就变长,越来越慢、越来越吃显存。这篇论文发现了三种冗余来源:①帧间高度相似的 key;②语义缓慢变化的 query/key;③cross-attention 中大部分 prompt token 与当前帧无关。提出三个即插即用模块分别解决这三个问题,实现 5-10× 加速,并且长 rollout 时吞吐量稳定、显存不再增长。

Introduction 核心论点

1) 自回归视频扩散模型(ARVD)是流式视频生成和世界模型的核心架构,但 attention 层是推理瓶颈。
2) 随生成进行,KV cache 线性增长 → 延迟↑ + 显存↑ → 限制可用时序上下文 → 损害长程一致性。
3) 识别出三种持久冗余:近重复 cache key、慢变语义向量、prompt 中的不相关 token。

核心方法

┌──────────────────────────────────────────────────────┐ │ 统一 training-free Attention 加速框架 │ │ │ │ ① TempCache: 时序 KV Cache 压缩 │ │ 利用帧间时序对应关系压缩 KV cache → 限界增长 │ │ KV cache size: O(T) → O(1) │ │ │ │ ② AnnCA: 近似最近邻 Cross-Attention │ │ 每帧仅选择相关 prompt token → 稀疏 cross-attn │ │ │ │ ③ AnnSA: 近似最近邻 Self-Attention │ │ query 仅与语义匹配的 key 做 attention │ │ │ │ 效果: 5-10× 加速 | 恒定吞吐 | 恒定显存 │ └──────────────────────────────────────────────────────┘

实验

在多个 ARVD backbone 上验证,覆盖视频生成和世界模型任务。长 rollout 下保持稳定吞吐量和恒定峰值显存,此前方法均随时间降速和显存爆炸。

局限与启发

局限:近似最近邻索引本身有开销;稀疏化阈值需手动调参。
启发:(1) 可学习 ANN 索引(端到端训练稀疏 mask);(2) 与 WorldCache 互补(KV 层面 + 去噪层面);(3) 适用于所有自回归视频世界模型(如 Genie 系列)。

3. Sparse Imagination for Efficient Visual World Model Planning
2025.06 ICLR 2026 Model-Based RL / Planning 复现价值: High

Visual World Model 的 rollout 过程 — 传统方法需要逐帧展开整个想象轨迹,Sparse Imagination 只对关键决策帧展开。

通俗总结

世界模型规划时,传统方法一帧一帧地"想象"未来,但大多数帧几乎没有新信息。Sparse Imagination 学会了"跳着想象"——只在任务关键节点展开世界模型,中间用轻量插值替代。这大幅减少了世界模型调用次数,同时保持决策质量。对机器人等资源受限场景尤其关键。

Introduction 核心论点

1) 基于世界模型的规划极大改善了复杂环境中的决策,但计算负担在机器人等资源严重受限的场景中尤其突出。
2) 现有方法在 latent space 中密集展开轨迹,许多步骤冗余——环境状态在相邻步之间变化微乎其微。
3) 提出 Sparse Imagination:学习识别哪些未来帧对决策至关重要,仅在这些关键帧展开世界模型。

核心方法

┌────────────────────────────────────────────────────┐ │ Sparse Imagination 框架 │ │ │ │ 传统方法: 帧₁→帧₂→帧₃→帧₄→帧₅→... (全展开) │ │ │ │ Sparse: 帧₁──→──→帧₃────→帧₅ (跳过式) │ │ \ / \ / │ │ 插值/跳跃连接 │ │ │ │ 关键创新: │ │ • 可学习 Skip Gate: 判断是否可跳过当前帧 │ │ • 跳跃式 latent dynamics: 多步跳跃预测 │ │ • 训练目标: 最小化 rollout 步数 + 保持策略性能 │ └────────────────────────────────────────────────────┘

实验

在多个视觉控制任务(DMControl、Meta-World)和机器人操作任务上验证。达成 ~3× rollout 加速,策略性能基本持平。

局限与启发

局限:Skip gate 训练需额外标注或 RL 信号;极端动态场景可能不稳定。
启发:(1) 与 token pruning 结合(空间+时序稀疏);(2) 自适应 skip 步长(动态场景多展开,静态少展开);(3) 可扩展到视频 diffusion 世界模型的去噪步跳过。

4. Masked Generative Priors Improve World Models Sequence Modelling Capabilities
2024.10 arXiv (v1: 2024.10, updated 2025.10) Model-Based RL / Video Prediction 复现价值: High

World Model 的 token 生成方式 — 从逐 token 自回归生成 → 并行掩码生成(MaskGIT-style),实现一次前向生成多帧。

通俗总结

传统世界模型一帧一帧、一个 token 一个 token 地自回归"想象"未来,和 GPT 生成文字一样慢。这篇论文把 MaskGIT 的并行解码思想引入世界模型:先预测容易的部分,再逐步填补细节。一次前向传播就能生成多个未来帧,不再需要串行等前面帧生成完。

Introduction 核心论点

1) 深度 RL 中基于模型的方法利用世界模型进行规划和想象,但自回归序列建模推理慢。
2) MaskGIT 式并行解码已在图像生成中成功,但在世界模型的序列建模中探索不足。
3) 掩码生成先验(MGP)可同时改进世界模型的序列建模质量和推理速度。

核心方法

┌────────────────────────────────────────────────────┐ │ Masked Generative Priors for World Models │ │ │ │ 自回归 (慢): │ │ [t₁] → [t₂] → [t₃] → [t₄] → ... (N 次前向) │ │ │ │ 掩码生成 (快): │ │ Step 1: 预测 [t₁, M, t₃, M] (置信度高的token) │ │ Step 2: 预测 [t₁, t₂, t₃, M] (逐步填充) │ │ Step 3: 预测 [t₁, t₂, t₃, t₄] (完整序列) │ │ K 次前向 << N 次前向 (K ≈ 4-8) │ └────────────────────────────────────────────────────┘

实验

在 Atari 100K 和 DMControl 等标准 MBRL benchmark 上验证。显著加速序列生成(~5×),同时改进长期预测质量。

局限与启发

局限:并行解码仍需多步迭代(K 步),不如纯前馈快;掩码策略设计依赖任务特点。
启发:(1) 将并行解码用于 world model 的 planning rollout(一次并行生成多步未来);(2) 与 Diffusion Forcing 结合——并行 + 扩散融合。

5. NoiseGate: Learning Per-Latent Timestep Schedules as Information Gating in World Action Models
2026.05 arXiv:2605.07794 World Action Model / Diffusion 复现价值: Medium

Diffusion World Action Model 的去噪过程 — 每个 latent frame 不再需要到同一噪声水平。本质是"信息门控"形式的 early exit。

通俗总结

传统 diffusion 世界模型对所有预测帧用同一个噪声水平,但推理时不同帧需要的信息量不同——近处需要精确去噪,远处粗略即可。NoiseGate 给每帧分配不同的"信息通过量":对动作决策重要的帧给更多去噪步,不重要的帧提前退出。这是一种去噪级别的 early exit / adaptive computation

Introduction 核心论点

1) World Action Models 将感知-预测-控制耦合在一个扩散过程中,但现有系统把所有 latent frame 绑在同一时间步。
2) "噪声作为掩码"视角下,统一时间步强加了不合理的先验——假设每个预测帧对动作生成同等可靠。
3) NoiseGate 将逐帧时间步视为可学习的信息门控策略:改变一帧的噪声水平 = 调节其对动作 token 的 Key/Value 贡献可靠性。

核心方法

┌────────────────────────────────────────────────────┐ │ NoiseGate 框架 │ │ │ │ 训练阶段: 独立逐 latent 时间步采样 │ │ │ │ 推理阶段 (去噪): │ │ ┌──────────┐ Gating Policy ┌──────────────┐ │ │ │ latent帧 │ ──每帧不同t──→ │ 信息门控 │ │ │ │ f₁ f₂ f₃ │ │ • f₁: t=100 │ │ │ └──────────┘ │ • f₂: t=500 │ │ │ │ • f₃: t=200 │ │ │ └──────────────┘ │ │ │ │ 核心: 轻量 Gating Policy Network │ │ 输出每帧时间增量 → 任务奖励优化 → 无需手工先验 │ └────────────────────────────────────────────────────┘

实验

在 RoboTwin 多种随机场景操作任务上验证,基于联合 video-action MoT backbone。一致增益。

局限与启发

局限:Gating Policy Network 需要任务奖励训练;目前限于操作任务。
启发:(1) 信息门控思想可推广到所有 diffusion world model;(2) 与 speculative decoding 结合——对高噪声帧用草稿模型、低噪声帧用主模型;(3) 作为 diffusion forcing 的增强版。

6. DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks
2026.04 arXiv:2604.16484 Embodied World Model 复现价值: Medium

(1) Memory — O(T) → O(1) 长 horizon 推理;(2) Denoising — 推测性异步推理 (SAI) 将去噪掩藏在物理执行背后。

通俗总结

操作机器人的世界模型有个致命问题:随着任务变长,存储"记忆"所需的显存线性增长,推理延迟也线性增长。CLWM 解决了两件事:用双状态 TTT Memory 把内存压到 O(1);用"推测性异步推理"让去噪和物理执行并行——机器人一边执行上一步预测的动作,一边在后台去噪下一步,延迟砍半。

Introduction 核心论点

1) 部署生成式 World-Action Models 进行操作受三个瓶颈制约:冗余像素重建、O(T) 内存缩放、串行推理延迟。
2) CLWM 用 DINOv3 特征替代像素重建 → 解耦交互语义与视觉噪声 → 强域泛化。
3) 双创新:Dual-State TTT Memory (O(1) 内存) + Speculative Asynchronous Inference (延迟减半)。

核心方法

┌────────────────────────────────────────────────────┐ │ DexWorldModel (CLWM) 框架 │ │ │ │ ① Dual-State TTT Memory │ │ ┌──────┐ ┌──────┐ ┌──────┐ │ │ │State₁│ → │State₂│ → │State₃│ O(1) memory │ │ └──────┘ └──────┘ └──────┘ │ │ TTT 压缩所有历史到固定大小隐状态 │ │ │ │ ② Speculative Async Inference (SAI) │ │ 时间 ──────────────────────────→ │ │ Robot: [执 行 Action₁] [执 行 Action₂] │ │ Model: [去噪→Action₂] [去噪→Action₃] │ │ 并行!去噪延迟被物理执行掩盖 │ └────────────────────────────────────────────────────┘

实验

复杂双臂仿真 + 零样本 sim-to-real 迁移到真机。CLWM 超过显式用真实数据微调的基线。

局限与启发

局限:SAI 依赖动作预测与物理执行时间匹配;只在操作任务验证。
启发:(1) SAI 可与 FLASH 的草稿模型结合;(2) O(1) memory 方案可推广到其他长 horizon 世界模型。

7. A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
2026.04 CVPR 2026 | arXiv:2604.04913 Video World Model 复现价值: High

Token 生成效率 — 将视频从 3D 时空表示压缩到 1D 时序序列(1024× token 减少),极大降低世界模型计算量。

通俗总结

DeltaWorld 的核心思想极其优雅:连续帧之间的变化信息其实很少。它不直接编码每一帧,而是编码"帧间差分"到一个单 token(DeltaTok)。这样一整个视频序列就压缩成了 1D 的 token 序列,世界模型只需处理这个序列即可。参数量减少 35×、FLOPs 减少 2000×,是当前最高效的生成式世界模型之一。

Introduction 核心论点

1) 判别式世界模型输出确定性预测(隐含平均化多种可能),生成式世界模型计算昂贵。
2) 在 VFM 特征空间预测(而非像素 latent)已证明更高效,但主流方法仍是判别式。
3) DeltaTok + DeltaWorld:在 VFM 特征空间中编码帧间差分 → 单 delta token → 3D→1D 压缩。

核心方法

┌────────────────────────────────────────────────────┐ │ DeltaWorld 框架 │ │ │ │ 传统方法: │ │ 每帧 → N×N 个 token (如 16×16=256 tokens) │ │ T 帧 → T×256 tokens → 巨大计算量 │ │ │ │ DeltaTok: │ │ 帧₁ 帧₂ 帧₃ 帧₄ │ │ ↓ ↓ ↓ ↓ │ │ f₁ Δ₁₂ Δ₂₃ Δ₃₄ (每帧间 1 token!) │ │ │ │ 512×512 帧: 1024× token 压缩! │ │ │ │ DeltaWorld: │ │ • 生成式建模 Δ token 序列 │ │ • 多假设训练: 并行生成多 futures, 选最优监督 │ │ • 一次前向 → 多样性预测 │ └────────────────────────────────────────────────────┘

实验

在密集预测任务上验证。35× 更少参数、2000× 更少 FLOPs,预测质量与真实结果更贴合。CVPR 2026 接收。

局限与启发

局限:依赖 VFM 特征质量;delta 编码可能丢失帧间细粒度信息。
启发:(1) DeltaTok 可与其他加速方法(WorldCache、TempCache)叠加;(2) 多假设训练是极简但高效的多样性建模方案;(3) 可扩展到 action-conditioned 操作场景。

8. Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs
2026.05 arXiv:2605.13778 Embodied VLA / Diffusion 复现价值: High

Diffusion VLA 的全推理延迟 — 通过"推测解码"思想,大部分重规划回合跳过完整去噪,用轻量草稿+并行验证替代。

通俗总结

扩散 VLA 模型每次决策需要完整去噪(58ms),但高频重规划时大部分情况不需要精确计算。FLASH 借鉴 LLM 的 speculative decoding:用一个超轻量草稿模型快速预测动作,然后用主模型的 Action Expert 做并行验证。如果草稿合格就直接执行(7.8ms),不合格才回退到完整推理。最终平均延迟降到 19.1ms(3× 加速),且任务成功率几乎不降。

Introduction 核心论点

1) Diffusion VLA 对具身智能很有前景,但完整推理的高延迟阻碍实时部署。
2) 核心洞察:重规划时大部分推理结果与上次相似——存在巨大冗余。
3) FLASH 三组件:轻量草稿模型 + 并行验证(Action Expert)+ 阶段感知回退机制。

核心方法

┌────────────────────────────────────────────────────┐ │ Realtime-VLA FLASH 框架 │ │ │ │ 传统: 每次重规划 → 完整去噪 (58.0ms) │ │ │ │ FLASH 推测推理: │ │ ┌─────────────┐ │ │ │ Draft Model │ → 快速草稿 (7.8ms) │ │ │ (轻量) │ │ │ └──────┬──────┘ │ │ ↓ │ │ ┌─────────────┐ 合格? │ │ │ Action │ ──Yes→ 执行草稿 │ │ │ Expert │ ──No → Phase-aware Fallback │ │ │ (并行验证) │ → 完整推理 │ │ └─────────────┘ │ │ │ │ 结果: 平均 19.1ms (3.04×), 峰值 7.8ms │ └────────────────────────────────────────────────────┘

实验

LIBERO benchmark + 真实传送带分拣。任务成功率基本保持,延迟从 58ms → 19.1ms。

局限与启发

局限:草稿模型需额外训练;性能取决于回退机制设计。
启发:(1) 将 speculative decoding 推广到 diffusion world model 的 rollout(而非仅 VLA 决策);(2) 多层级草稿(不同精度/速度的 world model);(3) 与 NoiseGate 结合——对已被门控"跳过"的帧用草稿。

9. Dynamic Execution Commitment of VLA Models (A³)
2026.05 arXiv:2605.11567 Embodied VLA / Planning 复现价值: Medium

VLA 的执行规划效率 — 传统固定 horizon 的 action chunking 要么浪费推理(chunk 太短),要么不可靠(chunk 太长)。A³ 自适应决定执行多少步。

通俗总结

VLA 模型一次性预测一串动作(action chunking)来分摊推理成本。但到底该预测多少步?太短→频繁推理,浪费算力;太长→预测不准,导致失败。A³ 将这个问题重新定义为"推测解码中的前缀验证问题"——用自一致性检查来判断每一步预测是否可靠,只执行最长的可靠前缀。无需手工调 horizon。

Introduction 核心论点

1) Action chunking 摊销大模型推理成本,但固定 horizon 是脆弱的启发式策略。
2) 可靠性是状态依赖的——动态场景下短 horizon 更安全,静态场景可以更长。
3) A³ 将动态执行承诺重新定义为自我推测性前缀验证:两大约束 → 最长可验证前缀。

核心方法

┌────────────────────────────────────────────────────┐ │ A³ 自适应动作接受 │ │ │ │ Step 1: Group Sampling → 共识分数 │ │ 多次采样 action 序列 → 计算每个位置一致性 │ │ │ │ Step 2: 一致性有序条件不变性验证 │ │ 低共识动作 → 以高共识动作为条件重新解码 → 验证 │ │ │ │ Step 3: 前缀闭包顺序一致性 │ │ 只接受从开头最长连续验证通过的动作序列 │ │ │ │ 结果: 执行 horizon = 最长可靠前缀 │ │ 无需任何手工调参! │ └────────────────────────────────────────────────────┘

实验

多种 VLA 模型和 benchmark。消除手工 horizon 调参,同时实现更好的可靠性-吞吐量 trade-off。

局限与启发

局限:验证需要额外前向传播;group sampling 增加总计算量(但减少推理次数)。
启发:(1) 前缀验证思想可扩展到 world model rollout(只展开被验证可靠的帧);(2) 与 Sparse Imagination 互补——稀疏展开 + 自适应承诺。

10. VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching
2025.02 NeurIPS 2025 | arXiv:2502.xxxxx Embodied VLA 复现价值: Medium

VLA 模型的视觉 token 计算 — 机器人操作中相邻帧大量视觉 token 几乎不变,自适应缓存避免重复编码。

通俗总结

VLA 模型每步都要重新编码整个视觉输入,但操作过程中大量视觉 token 几乎不变(背景、桌面等)。VLA-Cache 自适应识别哪些 token 与上一步相同、哪些发生了变化,只对变化的 token 重新计算。这是一个直观但有效的 idea——为机器人操作中帧间高度相关这一特点量身定制。

Introduction 核心论点

1) VLA 模型端到端从视觉和指令生成动作,但计算量大阻碍实时控制。
2) 现有加速方法依赖启发式或静态策略——如基于规则的 token 剪枝。
3) VLA-Cache 自适应 token 缓存:学习识别帧间不变 token,仅重新编码变化部分。

核心方法

┌────────────────────────────────────────────────────┐ │ VLA-Cache 框架 │ │ │ │ 帧ₜ₋₁: [tok₁ tok₂ tok₃ tok₄ ... tokₙ] │ │ ↓ 自适应缓存判断 │ │ 帧ₜ: [✓] [✓] [✗] [✓] ... [✗] │ │ 复用 复用 重算 复用 重算 │ │ │ │ 核心: 轻量 Cache Gate 网络 │ │ • 输入: 视觉 token + 动作上下文 │ │ • 输出: 逐 token 缓存/重算决策 │ │ • 训练: 与策略联合优化 │ └────────────────────────────────────────────────────┘

实验

在多种机器人操作任务上验证。~2× 推理加速,任务成功率基本保持。NeurIPS 2025 接收。

局限与启发

局限:性能依赖帧间视觉重叠度;极端视角变化时缓存失效。
启发:(1) 与 DeltaTok 互补——token 级缓存 vs. 特征级差分压缩;(2) 可扩展到 diffusion world model 的去噪缓存;(3) 学习型缓存策略优于手工启发式。

📚 扩展阅读

SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution
2026.05 arXiv (May 2026) Embodied / Video Prediction

加速对象:视觉预测 → 用图像编辑替代密集视频生成。
核心思想:大部分操作任务的进展可由少数任务相关视觉状态概括——与其生成整个视频,不如用图像编辑模型只编辑任务相关的物体/区域。密集视频生成 → 稀疏状态编辑。
启发:概念上类似 Sparse Imagination 但用编辑模型实现——"编辑未来"而非"渲染未来"。

GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control
2026.04 arXiv (Apr 2026) Model-Based RL

加速对象:Rollout 质量控制 → 减少无效想象。
核心思想:长 horizon 想象中模型误差复合导致轨迹漂移。GIRL 用信息论方法控制"幻觉"——检测并终止已偏离训练流形的想象轨迹,避免在无效想象上浪费计算。
启发:与 Sparse Imagination 互补——GIRL 决定"何时停止想象",Sparse Imagination 决定"哪里跳过帧"。

Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse
2025.06 arXiv (Jun 2025) Embodied VLA

加速对象:VLA 的思维链推理延迟。
核心思想:具身思维链 (ECoT) 通过中间推理步骤提升 VLA,但串行 token 生成引入显著延迟。Fast ECoT 缓存并复用跨时间步的"思维 token",避免重复推理。
启发:在 world model 中缓存"世界状态理解"的中间表示。

Q-ARVD: Quantizing Autoregressive Video Diffusion Models
2026.05 arXiv:2605.21072 Video World Model

加速对象:ARVD 推理效率 — 模型量化。
核心思想:自回归视频扩散模型的量化与前向扩散模型不同——帧间误差累积导致指数衰减的量化敏感度、异质离群 channel。Q-ARVD 提出最终质量感知帧加权 + 离群感知自适应双尺度量化。
启发:WorldCache + 量化 = 缓存+低精度双加速。

Learning to Accelerate VLA Models through Adaptive Visual Token Caching
2026.02 arXiv:2602.00686 Embodied VLA

加速对象:VLA 视觉编码。
核心思想:与 VLA-Cache 类似但更强调学习型策略——学出来的 token 保留/丢弃策略优于规则型剪枝。用轻量 policy network 在推理时动态决定每个视觉 token 的缓存策略。

SteinsGate Drive: Semantic Safety Arbitration over Structured Futures
2026.05 arXiv (May 2026) Autonomous Driving / World Model

加速对象:LLM+World Model 的延迟解耦。
核心思想:云端 LLM 推理延迟超出自车控制窗口。SteinsGate Drive 将未来生成和动作选择从紧耦合的大循环中解耦——world model 预计算多条未来轨迹,LLM 异步做语义仲裁。
启发:latency-decoupled 架构是加速 world model 部署的关键范式。

💡 可做的 3 个创新方向

方向 1: Speculative World Model Rollout(推测性世界模型展开)

核心思想:将 LLM 的 speculative decoding 范式系统性地移植到 world model rollout。

现有基础: • Realtime-VLA FLASH 展示了 diffusion VLA 层面的推测推理(草稿+验证)
• NoiseGate 展示了去噪级别的自适应计算(信息门控)
• Sparse Imagination 展示了 rollout 级别的稀疏化(跳帧)

具体方案:
① 训练一个极轻量的小 world model (~1% 参数量) 作为"草稿模型"
② 小模型快速展开 N 步未来(粗略但快速)
③ 大模型以并行方式验证草稿的每一步(类似 Action Expert 的并行验证)
④ 只对被拒绝的步重新精确展开
⑤ 预期加速:在保持精度的前提下达到 3-5× rollout 加速

与现有工作的区别:FLASH 在 VLA 决策层面做推测,本方向在 world model 的 latent rollout 层面做推测——这是两个不同但互补的层级。

方向 2: Unified Token-Level World Model Acceleration(统一 token 级世界模型加速)

核心思想:当前缓存(WorldCache)、压缩(TempCache)、剪枝(Sparse Imagination)、量化(Q-ARVD)各自独立工作。设计一个统一的、端到端可训练的 token 级加速框架。

现有基础: • WorldCache 做去噪 token 的缓存(曲率判断)
• TempCache 做 attention KV 的压缩(时序对应)
• DeltaTok 做帧间 token 压缩(差分编码)
• Q-ARVD 做模型权重的量化

具体方案:
① 为每一个 latent token 学习三个属性:重要性分数、压缩率、精度需求
② 重要性分数决定是否缓存/跳过(融合 WorldCache + Sparse Imagination)
③ 压缩率决定 KV cache 压缩程度(融合 TempCache + DeltaTok)
④ 精度需求决定量化比特数(融合 Q-ARVD)
⑤ 通过可微搜索或 RL 联合优化这些策略

优势:统一框架可发现各加速技术之间的协同效应(如高压缩 token 可同时用低精度),给出帕累托最优的精度-速度 trade-off。

方向 3: Adaptive-Computation Diffusion World Model with Learnable Early Exit

核心思想:将 NoiseGate 的"逐 latent 时间步"推广为完全的逐 token、逐去噪步的自适应计算——让模型自己学会每条去噪链在何处"足够好"就可以提前退出。

现有基础: • NoiseGate:逐 latent 时间步作为信息门控,但仍在固定去噪框架内
• 图像 diffusion 的 early exit 工作(如 DeepCache、TokenCache)
• 动态网络中的自适应计算(如 PonderNet、ACT)

具体方案:
① 在 diffusion world model 的每个去噪步插入轻量"置信度预测器"
② 预测器输出:当前 token 的去噪是否已足够做出正确的下游决策
③ 训练目标:最小化去噪步数 + 最大化下游决策准确率(多目标 RL 或 bi-level optimization)
④ 推理时:每步检查置信度,达标 → 提前退出该 token 的去噪链

与 NoiseGate 的区别:NoiseGate 学习的是每帧的"静态"时间步策略,本方向是真正的运行时动态 early exit——每个 token 的去噪步数根据当前状态实时决定。可看作 NoiseGate + 实时决策。

🗺️ 加速技术分类图谱

加速类别代表论文加速环节核心机制
Token 缓存与压缩 WorldCache 去噪 token 曲率引导异构缓存 + 混沌优先跳过
TempCache KV cache 时序对应压缩 + ANN 稀疏注意力
DeltaTok 帧 token 帧间差分 → 单 token(1024× 压缩)
稀疏 Rollout / 跳帧 Sparse Imagination 时序展开 可学习 skip gate → 关键帧展开
SWEET 视觉预测 图像编辑替代密集视频生成
并行解码 Masked Gen Priors Token 生成 MaskGIT-style 并行掩码预测
Action 执行 推测性前缀验证
推测推理 Realtime-VLA FLASH 扩散去噪 草稿模型 + 并行验证
CLWM (SAI) 去噪延迟 异步去噪(去噪与被物理执行掩盖)
SteinsGate Drive LLM+WM 耦合 延迟解耦:预计算+异步仲裁
Early Exit / 自适应计算 NoiseGate 去噪步 逐 latent 可学习噪声调度
GIRL Rollout 终止 信息论幻觉检测 → 提前终止
模型量化 Q-ARVD 权重/激活 帧感知加权 + 离群自适应量化
Memory 效率 CLWM (TTT) Memory 缩放 O(T) → O(1) via TTT compression
VLA-Cache 视觉编码 自适应 visual token 复用

📖 重要基础论文(非加速但必读)

论文年份贡献与加速的关系
DreamerV3 (Hafner et al.)2023通用 world model 架构:RSSM + actor-critic 在 latent imagination 中训练被加速的主要 target——Dreamer 系列的 rollout 是典型瓶颈
TD-MPC2 (Hansen et al.)2024Model-based RL 的 SOTA:latent dynamics + planning + policy 统一planning 中的 latent rollout 加速是核心需求
Diffusion Forcing (Chen et al.)2024扩散模型做序列生成:每 token 独立噪声水平,灵活 teacher forcingNoiseGate 的直接前身;per-token timestep 的思想源头
Genie (Bruce et al.)2024从互联网视频学交互式世界模型,可控制虚拟角色自回归视频世界模型加速的代表性 target
Diamond (Alonso et al.)2024Diffusion world model 在 Atari 上训练 RL agentWorldCache 加速的直接对象之一
MaskGIT (Chang et al.)2022掩码生成图像 Transformer:并行解码替代自回归Masked Generative Priors 的灵感来源