World Model Acceleration — Paper Survey 2026-05-24

#	论文	时间	会议	加速对象	核心技术	加速倍数
1	WorldCache	2026.03	arXiv	Denoising / Token Generation	异构 Token 缓存 + 混沌优先自适应跳过	3.7×
2	TempCache + AnnCA/AnnSA	2026.02	arXiv	Attention / KV Cache / Memory	时序 KV 缓存压缩 + 近似最近邻稀疏注意力	5-10×
3	Sparse Imagination	2025.06	ICLR 2026	Rollout / Planning	稀疏想象 - 仅对未来关键帧展开	~3×
4	Masked Generative Priors (MGP)	2024.10	arXiv	Token Generation	MaskGIT 式并行解码替代自回归生成	~5×
5	NoiseGate	2026.05	arXiv	Denoising / Early Exit	逐 latent 可学习噪声调度 = 信息门控	自适应
6	DexWorldModel (CLWM)	2026.04	arXiv	Memory / Denoising	O(1) Memory + 推测性异步推理 (SAI)	~2× (延迟)
7	DeltaWorld + DeltaTok	2026.04	CVPR 2026	Token Generation / Memory	帧间差分压缩至单 token (1024× 压缩)	2000× FLOPs
8	Realtime-VLA FLASH	2026.05	arXiv	Denoising / Planning	轻量草稿模型 + 并行验证 = 推测推理	3.04×
9	A³ (Dynamic Execution)	2026.05	arXiv	Planning / Execution	自适应动作接受 = 前缀验证问题	动态
10	VLA-Cache	2025.02	NeurIPS 2025	Token Generation / Memory	自适应视觉 token 缓存	~2×

1. WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

2026.03 arXiv:2603.06331 Diffusion World Model 复现价值: High

加速对象：Diffusion World Model 的迭代去噪过程 — 每次 rollout 需数百步去噪，WorldCache 跳过大部分冗余去噪步。

通俗总结

Diffusion 世界模型每预测一帧要做几十到几百次去噪迭代，太慢了。WorldCache 发现：大部分 token 的去噪轨迹高度可预测，只有少数"混沌 token"需要精确计算。它用曲率信号预测哪些 token 可以缓存复用、哪些必须重新计算，实现 3.7× 加速且质量几乎不降。核心洞见：不是所有 token 平等——世界模型中的 token 异构性远比图像生成严重。

Introduction 核心论点

1) Diffusion 世界模型统一仿真潜力大，但迭代去噪阻碍交互式应用和长 horizon rollout。
2) 已有 feature caching 针对单模态 diffusion 设计，迁移到世界模型失效——因为：
(a) token 异构性：多模态耦合（视觉+动作+文本）和空间变化导致 token 行为高度分化；
(b) 非均匀时序动态：少数"硬 token"的错误快速传播，均匀跳过策略要么不稳定要么过于保守。
3) WorldCache 专为扩散世界模型设计：曲率引导的异构 token 预测 + 混沌优先自适应跳过。

核心方法

┌─────────────────────────────────────────────────────┐ │ WorldCache 框架 │ │ │ │ ① Curvature-guided Heterogeneous Token Prediction │ │ ┌──────────┐ curvature ┌──────────────┐ │ │ │ 去噪步t │ ──score计算──→ │ token分类 │ │ │ └──────────┘ │ 可预测/混沌 │ │ │ └──┬───────────┘ │ │ 可预测token → 缓存复用 │ │ 混沌token → Hermite阻尼预测 │ │ │ │ ② Chaotic-prioritized Adaptive Skipping │ │ ┌──────────┐ drift信号累积 ┌─────────────┐ │ │ │ 跳过步 │ ────────────→ │ 漂移>阈值? │ │ │ └──────────┘ │ → 重新计算 │ │ │ └─────────────┘ │ └─────────────────────────────────────────────────────┘

实验

在多个 Diffusion World Model 上验证（含 Diamond 等）。指标：FVD（视频质量）、SSIM、LPIPS、端到端加速比。WorldCache 达 3.7× 加速、保持 98% rollout 质量。

局限与启发

局限：曲率计算需额外前向传播；对极端分布外场景敏感。
启发：(1) 可结合量化进一步压缩缓存；(2) 学习型 token 重要性预测器替代曲率；(3) 扩展到视频扩散世界模型（ARVD）的 KV cache 场景。

2. Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

2026.02 arXiv:2602.01801 Video World Model 复现价值: High

📄 arXiv 🌐 Project Page

加速对象：自回归视频扩散模型的 Attention / KV Cache / GPU Memory — 特别是长 rollout 时 KV cache 线性增长导致延迟和显存爆炸。

通俗总结

自回归视频扩散模型每生成一帧，attention 的 KV cache 就变长，越来越慢、越来越吃显存。这篇论文发现了三种冗余来源：①帧间高度相似的 key；②语义缓慢变化的 query/key；③cross-attention 中大部分 prompt token 与当前帧无关。提出三个即插即用模块分别解决这三个问题，实现 5-10× 加速，并且长 rollout 时吞吐量稳定、显存不再增长。

Introduction 核心论点

1) 自回归视频扩散模型（ARVD）是流式视频生成和世界模型的核心架构，但 attention 层是推理瓶颈。
2) 随生成进行，KV cache 线性增长 → 延迟↑ + 显存↑ → 限制可用时序上下文 → 损害长程一致性。
3) 识别出三种持久冗余：近重复 cache key、慢变语义向量、prompt 中的不相关 token。

核心方法

┌──────────────────────────────────────────────────────┐ │ 统一 training-free Attention 加速框架 │ │ │ │ ① TempCache: 时序 KV Cache 压缩 │ │ 利用帧间时序对应关系压缩 KV cache → 限界增长 │ │ KV cache size: O(T) → O(1) │ │ │ │ ② AnnCA: 近似最近邻 Cross-Attention │ │ 每帧仅选择相关 prompt token → 稀疏 cross-attn │ │ │ │ ③ AnnSA: 近似最近邻 Self-Attention │ │ query 仅与语义匹配的 key 做 attention │ │ │ │ 效果: 5-10× 加速 | 恒定吞吐 | 恒定显存 │ └──────────────────────────────────────────────────────┘

实验

在多个 ARVD backbone 上验证，覆盖视频生成和世界模型任务。长 rollout 下保持稳定吞吐量和恒定峰值显存，此前方法均随时间降速和显存爆炸。

局限与启发

局限：近似最近邻索引本身有开销；稀疏化阈值需手动调参。
启发：(1) 可学习 ANN 索引（端到端训练稀疏 mask）；(2) 与 WorldCache 互补（KV 层面 + 去噪层面）；(3) 适用于所有自回归视频世界模型（如 Genie 系列）。

3. Sparse Imagination for Efficient Visual World Model Planning

2025.06 ICLR 2026 Model-Based RL / Planning 复现价值: High

📄 arXiv (v1: 2025.06) 🌐 Project Page

加速对象：Visual World Model 的 rollout 过程 — 传统方法需要逐帧展开整个想象轨迹，Sparse Imagination 只对关键决策帧展开。

通俗总结

世界模型规划时，传统方法一帧一帧地"想象"未来，但大多数帧几乎没有新信息。Sparse Imagination 学会了"跳着想象"——只在任务关键节点展开世界模型，中间用轻量插值替代。这大幅减少了世界模型调用次数，同时保持决策质量。对机器人等资源受限场景尤其关键。

Introduction 核心论点

1) 基于世界模型的规划极大改善了复杂环境中的决策，但计算负担在机器人等资源严重受限的场景中尤其突出。
2) 现有方法在 latent space 中密集展开轨迹，许多步骤冗余——环境状态在相邻步之间变化微乎其微。
3) 提出 Sparse Imagination：学习识别哪些未来帧对决策至关重要，仅在这些关键帧展开世界模型。

核心方法

┌────────────────────────────────────────────────────┐ │ Sparse Imagination 框架 │ │ │ │ 传统方法: 帧₁→帧₂→帧₃→帧₄→帧₅→... (全展开) │ │ │ │ Sparse: 帧₁──→──→帧₃────→帧₅ (跳过式) │ │ \ / \ / │ │ 插值/跳跃连接 │ │ │ │ 关键创新: │ │ • 可学习 Skip Gate: 判断是否可跳过当前帧 │ │ • 跳跃式 latent dynamics: 多步跳跃预测 │ │ • 训练目标: 最小化 rollout 步数 + 保持策略性能 │ └────────────────────────────────────────────────────┘

实验

在多个视觉控制任务（DMControl、Meta-World）和机器人操作任务上验证。达成 ~3× rollout 加速，策略性能基本持平。

局限与启发

局限：Skip gate 训练需额外标注或 RL 信号；极端动态场景可能不稳定。
启发：(1) 与 token pruning 结合（空间+时序稀疏）；(2) 自适应 skip 步长（动态场景多展开，静态少展开）；(3) 可扩展到视频 diffusion 世界模型的去噪步跳过。

4. Masked Generative Priors Improve World Models Sequence Modelling Capabilities

2024.10 arXiv (v1: 2024.10, updated 2025.10) Model-Based RL / Video Prediction 复现价值: High

📄 arXiv

加速对象：World Model 的 token 生成方式 — 从逐 token 自回归生成 → 并行掩码生成（MaskGIT-style），实现一次前向生成多帧。

通俗总结

传统世界模型一帧一帧、一个 token 一个 token 地自回归"想象"未来，和 GPT 生成文字一样慢。这篇论文把 MaskGIT 的并行解码思想引入世界模型：先预测容易的部分，再逐步填补细节。一次前向传播就能生成多个未来帧，不再需要串行等前面帧生成完。

Introduction 核心论点

1) 深度 RL 中基于模型的方法利用世界模型进行规划和想象，但自回归序列建模推理慢。
2) MaskGIT 式并行解码已在图像生成中成功，但在世界模型的序列建模中探索不足。
3) 掩码生成先验（MGP）可同时改进世界模型的序列建模质量和推理速度。

核心方法

┌────────────────────────────────────────────────────┐ │ Masked Generative Priors for World Models │ │ │ │ 自回归 (慢): │ │ [t₁] → [t₂] → [t₃] → [t₄] → ... (N 次前向) │ │ │ │ 掩码生成 (快): │ │ Step 1: 预测 [t₁, M, t₃, M] (置信度高的token) │ │ Step 2: 预测 [t₁, t₂, t₃, M] (逐步填充) │ │ Step 3: 预测 [t₁, t₂, t₃, t₄] (完整序列) │ │ K 次前向 << N 次前向 (K ≈ 4-8) │ └────────────────────────────────────────────────────┘

实验

在 Atari 100K 和 DMControl 等标准 MBRL benchmark 上验证。显著加速序列生成（~5×），同时改进长期预测质量。

局限与启发

局限：并行解码仍需多步迭代（K 步），不如纯前馈快；掩码策略设计依赖任务特点。
启发：(1) 将并行解码用于 world model 的 planning rollout（一次并行生成多步未来）；(2) 与 Diffusion Forcing 结合——并行 + 扩散融合。

5. NoiseGate: Learning Per-Latent Timestep Schedules as Information Gating in World Action Models

2026.05 arXiv:2605.07794 World Action Model / Diffusion 复现价值: Medium

📄 arXiv

加速对象：Diffusion World Action Model 的去噪过程 — 每个 latent frame 不再需要到同一噪声水平。本质是"信息门控"形式的 early exit。

通俗总结

传统 diffusion 世界模型对所有预测帧用同一个噪声水平，但推理时不同帧需要的信息量不同——近处需要精确去噪，远处粗略即可。NoiseGate 给每帧分配不同的"信息通过量"：对动作决策重要的帧给更多去噪步，不重要的帧提前退出。这是一种去噪级别的 early exit / adaptive computation。

Introduction 核心论点

1) World Action Models 将感知-预测-控制耦合在一个扩散过程中，但现有系统把所有 latent frame 绑在同一时间步。
2) "噪声作为掩码"视角下，统一时间步强加了不合理的先验——假设每个预测帧对动作生成同等可靠。
3) NoiseGate 将逐帧时间步视为可学习的信息门控策略：改变一帧的噪声水平 = 调节其对动作 token 的 Key/Value 贡献可靠性。

核心方法

┌────────────────────────────────────────────────────┐ │ NoiseGate 框架 │ │ │ │ 训练阶段: 独立逐 latent 时间步采样 │ │ │ │ 推理阶段 (去噪): │ │ ┌──────────┐ Gating Policy ┌──────────────┐ │ │ │ latent帧 │ ──每帧不同t──→ │ 信息门控 │ │ │ │ f₁ f₂ f₃ │ │ • f₁: t=100 │ │ │ └──────────┘ │ • f₂: t=500 │ │ │ │ • f₃: t=200 │ │ │ └──────────────┘ │ │ │ │ 核心: 轻量 Gating Policy Network │ │ 输出每帧时间增量 → 任务奖励优化 → 无需手工先验 │ └────────────────────────────────────────────────────┘

实验

在 RoboTwin 多种随机场景操作任务上验证，基于联合 video-action MoT backbone。一致增益。

局限与启发

局限：Gating Policy Network 需要任务奖励训练；目前限于操作任务。
启发：(1) 信息门控思想可推广到所有 diffusion world model；(2) 与 speculative decoding 结合——对高噪声帧用草稿模型、低噪声帧用主模型；(3) 作为 diffusion forcing 的增强版。

6. DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks

2026.04 arXiv:2604.16484 Embodied World Model 复现价值: Medium

📄 arXiv

加速对象：(1) Memory — O(T) → O(1) 长 horizon 推理；(2) Denoising — 推测性异步推理 (SAI) 将去噪掩藏在物理执行背后。

通俗总结

操作机器人的世界模型有个致命问题：随着任务变长，存储"记忆"所需的显存线性增长，推理延迟也线性增长。CLWM 解决了两件事：用双状态 TTT Memory 把内存压到 O(1)；用"推测性异步推理"让去噪和物理执行并行——机器人一边执行上一步预测的动作，一边在后台去噪下一步，延迟砍半。

Introduction 核心论点

1) 部署生成式 World-Action Models 进行操作受三个瓶颈制约：冗余像素重建、O(T) 内存缩放、串行推理延迟。
2) CLWM 用 DINOv3 特征替代像素重建 → 解耦交互语义与视觉噪声 → 强域泛化。
3) 双创新：Dual-State TTT Memory (O(1) 内存) + Speculative Asynchronous Inference (延迟减半)。

核心方法

┌────────────────────────────────────────────────────┐ │ DexWorldModel (CLWM) 框架 │ │ │ │ ① Dual-State TTT Memory │ │ ┌──────┐ ┌──────┐ ┌──────┐ │ │ │State₁│ → │State₂│ → │State₃│ O(1) memory │ │ └──────┘ └──────┘ └──────┘ │ │ TTT 压缩所有历史到固定大小隐状态 │ │ │ │ ② Speculative Async Inference (SAI) │ │ 时间 ──────────────────────────→ │ │ Robot: [执行 Action₁] [执行 Action₂] │ │ Model: [去噪→Action₂] [去噪→Action₃] │ │ 并行！去噪延迟被物理执行掩盖 │ └────────────────────────────────────────────────────┘

实验

复杂双臂仿真 + 零样本 sim-to-real 迁移到真机。CLWM 超过显式用真实数据微调的基线。

局限与启发

局限：SAI 依赖动作预测与物理执行时间匹配；只在操作任务验证。
启发：(1) SAI 可与 FLASH 的草稿模型结合；(2) O(1) memory 方案可推广到其他长 horizon 世界模型。

7. A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

2026.04 CVPR 2026 | arXiv:2604.04913 Video World Model 复现价值: High

📄 arXiv 💻 Code & Weights

加速对象：Token 生成效率 — 将视频从 3D 时空表示压缩到 1D 时序序列（1024× token 减少），极大降低世界模型计算量。

通俗总结

DeltaWorld 的核心思想极其优雅：连续帧之间的变化信息其实很少。它不直接编码每一帧，而是编码"帧间差分"到一个单 token（DeltaTok）。这样一整个视频序列就压缩成了 1D 的 token 序列，世界模型只需处理这个序列即可。参数量减少 35×、FLOPs 减少 2000×，是当前最高效的生成式世界模型之一。

Introduction 核心论点

1) 判别式世界模型输出确定性预测（隐含平均化多种可能），生成式世界模型计算昂贵。
2) 在 VFM 特征空间预测（而非像素 latent）已证明更高效，但主流方法仍是判别式。
3) DeltaTok + DeltaWorld：在 VFM 特征空间中编码帧间差分 → 单 delta token → 3D→1D 压缩。

核心方法

┌────────────────────────────────────────────────────┐ │ DeltaWorld 框架 │ │ │ │ 传统方法: │ │ 每帧 → N×N 个 token (如 16×16=256 tokens) │ │ T 帧 → T×256 tokens → 巨大计算量 │ │ │ │ DeltaTok: │ │ 帧₁ 帧₂ 帧₃ 帧₄ │ │ ↓ ↓ ↓ ↓ │ │ f₁ Δ₁₂ Δ₂₃ Δ₃₄ (每帧间 1 token!) │ │ │ │ 512×512 帧: 1024× token 压缩！ │ │ │ │ DeltaWorld: │ │ • 生成式建模 Δ token 序列 │ │ • 多假设训练: 并行生成多 futures, 选最优监督 │ │ • 一次前向 → 多样性预测 │ └────────────────────────────────────────────────────┘

实验

在密集预测任务上验证。35× 更少参数、2000× 更少 FLOPs，预测质量与真实结果更贴合。CVPR 2026 接收。

局限与启发

局限：依赖 VFM 特征质量；delta 编码可能丢失帧间细粒度信息。
启发：(1) DeltaTok 可与其他加速方法（WorldCache、TempCache）叠加；(2) 多假设训练是极简但高效的多样性建模方案；(3) 可扩展到 action-conditioned 操作场景。

8. Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs

2026.05 arXiv:2605.13778 Embodied VLA / Diffusion 复现价值: High

📄 arXiv

加速对象：Diffusion VLA 的全推理延迟 — 通过"推测解码"思想，大部分重规划回合跳过完整去噪，用轻量草稿+并行验证替代。

通俗总结

扩散 VLA 模型每次决策需要完整去噪（58ms），但高频重规划时大部分情况不需要精确计算。FLASH 借鉴 LLM 的 speculative decoding：用一个超轻量草稿模型快速预测动作，然后用主模型的 Action Expert 做并行验证。如果草稿合格就直接执行（7.8ms），不合格才回退到完整推理。最终平均延迟降到 19.1ms（3× 加速），且任务成功率几乎不降。

Introduction 核心论点

1) Diffusion VLA 对具身智能很有前景，但完整推理的高延迟阻碍实时部署。
2) 核心洞察：重规划时大部分推理结果与上次相似——存在巨大冗余。
3) FLASH 三组件：轻量草稿模型 + 并行验证（Action Expert）+ 阶段感知回退机制。

核心方法

┌────────────────────────────────────────────────────┐ │ Realtime-VLA FLASH 框架 │ │ │ │ 传统: 每次重规划 → 完整去噪 (58.0ms) │ │ │ │ FLASH 推测推理: │ │ ┌─────────────┐ │ │ │ Draft Model │ → 快速草稿 (7.8ms) │ │ │ (轻量) │ │ │ └──────┬──────┘ │ │ ↓ │ │ ┌─────────────┐ 合格? │ │ │ Action │ ──Yes→ 执行草稿 │ │ │ Expert │ ──No → Phase-aware Fallback │ │ │ (并行验证) │ → 完整推理 │ │ └─────────────┘ │ │ │ │ 结果: 平均 19.1ms (3.04×), 峰值 7.8ms │ └────────────────────────────────────────────────────┘

实验

LIBERO benchmark + 真实传送带分拣。任务成功率基本保持，延迟从 58ms → 19.1ms。

局限与启发

局限：草稿模型需额外训练；性能取决于回退机制设计。
启发：(1) 将 speculative decoding 推广到 diffusion world model 的 rollout（而非仅 VLA 决策）；(2) 多层级草稿（不同精度/速度的 world model）；(3) 与 NoiseGate 结合——对已被门控"跳过"的帧用草稿。

9. Dynamic Execution Commitment of VLA Models (A³)

2026.05 arXiv:2605.11567 Embodied VLA / Planning 复现价值: Medium

📄 arXiv 💻 Code

加速对象：VLA 的执行规划效率 — 传统固定 horizon 的 action chunking 要么浪费推理（chunk 太短），要么不可靠（chunk 太长）。A³ 自适应决定执行多少步。

通俗总结

VLA 模型一次性预测一串动作（action chunking）来分摊推理成本。但到底该预测多少步？太短→频繁推理，浪费算力；太长→预测不准，导致失败。A³ 将这个问题重新定义为"推测解码中的前缀验证问题"——用自一致性检查来判断每一步预测是否可靠，只执行最长的可靠前缀。无需手工调 horizon。

Introduction 核心论点

1) Action chunking 摊销大模型推理成本，但固定 horizon 是脆弱的启发式策略。
2) 可靠性是状态依赖的——动态场景下短 horizon 更安全，静态场景可以更长。
3) A³ 将动态执行承诺重新定义为自我推测性前缀验证：两大约束 → 最长可验证前缀。

核心方法

┌────────────────────────────────────────────────────┐ │ A³ 自适应动作接受 │ │ │ │ Step 1: Group Sampling → 共识分数 │ │ 多次采样 action 序列 → 计算每个位置一致性 │ │ │ │ Step 2: 一致性有序条件不变性验证 │ │ 低共识动作 → 以高共识动作为条件重新解码 → 验证 │ │ │ │ Step 3: 前缀闭包顺序一致性 │ │ 只接受从开头最长连续验证通过的动作序列 │ │ │ │ 结果: 执行 horizon = 最长可靠前缀 │ │ 无需任何手工调参！ │ └────────────────────────────────────────────────────┘

实验

多种 VLA 模型和 benchmark。消除手工 horizon 调参，同时实现更好的可靠性-吞吐量 trade-off。

局限与启发

局限：验证需要额外前向传播；group sampling 增加总计算量（但减少推理次数）。
启发：(1) 前缀验证思想可扩展到 world model rollout（只展开被验证可靠的帧）；(2) 与 Sparse Imagination 互补——稀疏展开 + 自适应承诺。

10. VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching

2025.02 NeurIPS 2025 | arXiv:2502.xxxxx Embodied VLA 复现价值: Medium

📄 arXiv

加速对象：VLA 模型的视觉 token 计算 — 机器人操作中相邻帧大量视觉 token 几乎不变，自适应缓存避免重复编码。

通俗总结

VLA 模型每步都要重新编码整个视觉输入，但操作过程中大量视觉 token 几乎不变（背景、桌面等）。VLA-Cache 自适应识别哪些 token 与上一步相同、哪些发生了变化，只对变化的 token 重新计算。这是一个直观但有效的 idea——为机器人操作中帧间高度相关这一特点量身定制。

Introduction 核心论点

1) VLA 模型端到端从视觉和指令生成动作，但计算量大阻碍实时控制。
2) 现有加速方法依赖启发式或静态策略——如基于规则的 token 剪枝。
3) VLA-Cache 自适应 token 缓存：学习识别帧间不变 token，仅重新编码变化部分。

核心方法

┌────────────────────────────────────────────────────┐ │ VLA-Cache 框架 │ │ │ │ 帧ₜ₋₁: [tok₁ tok₂ tok₃ tok₄ ... tokₙ] │ │ ↓ 自适应缓存判断 │ │ 帧ₜ: [✓] [✓] [✗] [✓] ... [✗] │ │ 复用复用重算复用重算 │ │ │ │ 核心: 轻量 Cache Gate 网络 │ │ • 输入: 视觉 token + 动作上下文 │ │ • 输出: 逐 token 缓存/重算决策 │ │ • 训练: 与策略联合优化 │ └────────────────────────────────────────────────────┘

实验

在多种机器人操作任务上验证。~2× 推理加速，任务成功率基本保持。NeurIPS 2025 接收。

局限与启发

局限：性能依赖帧间视觉重叠度；极端视角变化时缓存失效。
启发：(1) 与 DeltaTok 互补——token 级缓存 vs. 特征级差分压缩；(2) 可扩展到 diffusion world model 的去噪缓存；(3) 学习型缓存策略优于手工启发式。

📚 扩展阅读

SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution

2026.05 arXiv (May 2026) Embodied / Video Prediction

加速对象：视觉预测 → 用图像编辑替代密集视频生成。
核心思想：大部分操作任务的进展可由少数任务相关视觉状态概括——与其生成整个视频，不如用图像编辑模型只编辑任务相关的物体/区域。密集视频生成 → 稀疏状态编辑。
启发：概念上类似 Sparse Imagination 但用编辑模型实现——"编辑未来"而非"渲染未来"。

GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control

2026.04 arXiv (Apr 2026) Model-Based RL

加速对象：Rollout 质量控制 → 减少无效想象。
核心思想：长 horizon 想象中模型误差复合导致轨迹漂移。GIRL 用信息论方法控制"幻觉"——检测并终止已偏离训练流形的想象轨迹，避免在无效想象上浪费计算。
启发：与 Sparse Imagination 互补——GIRL 决定"何时停止想象"，Sparse Imagination 决定"哪里跳过帧"。

Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse

2025.06 arXiv (Jun 2025) Embodied VLA

加速对象：VLA 的思维链推理延迟。
核心思想：具身思维链 (ECoT) 通过中间推理步骤提升 VLA，但串行 token 生成引入显著延迟。Fast ECoT 缓存并复用跨时间步的"思维 token"，避免重复推理。
启发：在 world model 中缓存"世界状态理解"的中间表示。

Q-ARVD: Quantizing Autoregressive Video Diffusion Models

2026.05 arXiv:2605.21072 Video World Model

💻 Code

加速对象：ARVD 推理效率 — 模型量化。
核心思想：自回归视频扩散模型的量化与前向扩散模型不同——帧间误差累积导致指数衰减的量化敏感度、异质离群 channel。Q-ARVD 提出最终质量感知帧加权 + 离群感知自适应双尺度量化。
启发：WorldCache + 量化 = 缓存+低精度双加速。

Learning to Accelerate VLA Models through Adaptive Visual Token Caching

2026.02 arXiv:2602.00686 Embodied VLA

加速对象：VLA 视觉编码。
核心思想：与 VLA-Cache 类似但更强调学习型策略——学出来的 token 保留/丢弃策略优于规则型剪枝。用轻量 policy network 在推理时动态决定每个视觉 token 的缓存策略。

SteinsGate Drive: Semantic Safety Arbitration over Structured Futures

2026.05 arXiv (May 2026) Autonomous Driving / World Model

加速对象：LLM+World Model 的延迟解耦。
核心思想：云端 LLM 推理延迟超出自车控制窗口。SteinsGate Drive 将未来生成和动作选择从紧耦合的大循环中解耦——world model 预计算多条未来轨迹，LLM 异步做语义仲裁。
启发：latency-decoupled 架构是加速 world model 部署的关键范式。

💡 可做的 3 个创新方向

方向 1: Speculative World Model Rollout（推测性世界模型展开）

核心思想：将 LLM 的 speculative decoding 范式系统性地移植到 world model rollout。

现有基础： • Realtime-VLA FLASH 展示了 diffusion VLA 层面的推测推理（草稿+验证）
• NoiseGate 展示了去噪级别的自适应计算（信息门控）
• Sparse Imagination 展示了 rollout 级别的稀疏化（跳帧）

具体方案：
① 训练一个极轻量的小 world model (~1% 参数量) 作为"草稿模型"
② 小模型快速展开 N 步未来（粗略但快速）
③ 大模型以并行方式验证草稿的每一步（类似 Action Expert 的并行验证）
④ 只对被拒绝的步重新精确展开
⑤ 预期加速：在保持精度的前提下达到 3-5× rollout 加速

与现有工作的区别：FLASH 在 VLA 决策层面做推测，本方向在 world model 的 latent rollout 层面做推测——这是两个不同但互补的层级。

方向 2: Unified Token-Level World Model Acceleration（统一 token 级世界模型加速）

核心思想：当前缓存（WorldCache）、压缩（TempCache）、剪枝（Sparse Imagination）、量化（Q-ARVD）各自独立工作。设计一个统一的、端到端可训练的 token 级加速框架。

现有基础： • WorldCache 做去噪 token 的缓存（曲率判断）
• TempCache 做 attention KV 的压缩（时序对应）
• DeltaTok 做帧间 token 压缩（差分编码）
• Q-ARVD 做模型权重的量化

具体方案：
① 为每一个 latent token 学习三个属性：重要性分数、压缩率、精度需求
② 重要性分数决定是否缓存/跳过（融合 WorldCache + Sparse Imagination）
③ 压缩率决定 KV cache 压缩程度（融合 TempCache + DeltaTok）
④ 精度需求决定量化比特数（融合 Q-ARVD）
⑤ 通过可微搜索或 RL 联合优化这些策略

优势：统一框架可发现各加速技术之间的协同效应（如高压缩 token 可同时用低精度），给出帕累托最优的精度-速度 trade-off。

方向 3: Adaptive-Computation Diffusion World Model with Learnable Early Exit

核心思想：将 NoiseGate 的"逐 latent 时间步"推广为完全的逐 token、逐去噪步的自适应计算——让模型自己学会每条去噪链在何处"足够好"就可以提前退出。

现有基础： • NoiseGate：逐 latent 时间步作为信息门控，但仍在固定去噪框架内
• 图像 diffusion 的 early exit 工作（如 DeepCache、TokenCache）
• 动态网络中的自适应计算（如 PonderNet、ACT）

具体方案：
① 在 diffusion world model 的每个去噪步插入轻量"置信度预测器"
② 预测器输出：当前 token 的去噪是否已足够做出正确的下游决策
③ 训练目标：最小化去噪步数 + 最大化下游决策准确率（多目标 RL 或 bi-level optimization）
④ 推理时：每步检查置信度，达标 → 提前退出该 token 的去噪链

与 NoiseGate 的区别：NoiseGate 学习的是每帧的"静态"时间步策略，本方向是真正的运行时动态 early exit——每个 token 的去噪步数根据当前状态实时决定。可看作 NoiseGate + 实时决策。

加速类别	代表论文	加速环节	核心机制
Token 缓存与压缩	WorldCache	去噪 token	曲率引导异构缓存 + 混沌优先跳过
	TempCache	KV cache	时序对应压缩 + ANN 稀疏注意力
	DeltaTok	帧 token	帧间差分 → 单 token（1024× 压缩）
稀疏 Rollout / 跳帧	Sparse Imagination	时序展开	可学习 skip gate → 关键帧展开
稀疏 Rollout / 跳帧	SWEET	视觉预测	图像编辑替代密集视频生成
并行解码	Masked Gen Priors	Token 生成	MaskGIT-style 并行掩码预测
并行解码	A³	Action 执行	推测性前缀验证
推测推理	Realtime-VLA FLASH	扩散去噪	草稿模型 + 并行验证
	CLWM (SAI)	去噪延迟	异步去噪（去噪与被物理执行掩盖）
	SteinsGate Drive	LLM+WM 耦合	延迟解耦：预计算+异步仲裁
Early Exit / 自适应计算	NoiseGate	去噪步	逐 latent 可学习噪声调度
Early Exit / 自适应计算	GIRL	Rollout 终止	信息论幻觉检测 → 提前终止
模型量化	Q-ARVD	权重/激活	帧感知加权 + 离群自适应量化
Memory 效率	CLWM (TTT)	Memory 缩放	O(T) → O(1) via TTT compression
Memory 效率	VLA-Cache	视觉编码	自适应 visual token 复用

论文	年份	贡献	与加速的关系
DreamerV3 (Hafner et al.)	2023	通用 world model 架构：RSSM + actor-critic 在 latent imagination 中训练	被加速的主要 target——Dreamer 系列的 rollout 是典型瓶颈
TD-MPC2 (Hansen et al.)	2024	Model-based RL 的 SOTA：latent dynamics + planning + policy 统一	planning 中的 latent rollout 加速是核心需求
Diffusion Forcing (Chen et al.)	2024	扩散模型做序列生成：每 token 独立噪声水平，灵活 teacher forcing	NoiseGate 的直接前身；per-token timestep 的思想源头
Genie (Bruce et al.)	2024	从互联网视频学交互式世界模型，可控制虚拟角色	自回归视频世界模型加速的代表性 target
Diamond (Alonso et al.)	2024	Diffusion world model 在 Atari 上训练 RL agent	WorldCache 加速的直接对象之一
MaskGIT (Chang et al.)	2022	掩码生成图像 Transformer：并行解码替代自回归	Masked Generative Priors 的灵感来源

🚀 World Model Acceleration — Paper Survey

📊 论文速览总表

📄 最值得重点阅读的 10 篇论文

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

通俗总结

Introduction 核心论点

核心方法

实验

局限与启发

📚 扩展阅读

💡 可做的 3 个创新方向

方向 1: Speculative World Model Rollout（推测性世界模型展开）

方向 2: Unified Token-Level World Model Acceleration（统一 token 级世界模型加速）

方向 3: Adaptive-Computation Diffusion World Model with Learnable Early Exit

🗺️ 加速技术分类图谱

📖 重要基础论文（非加速但必读）