🌍 World Model Acceleration Paper Survey

📅 Generated: 2026-05-25 · Scope: 2023–2026 · Focus: 世界模型推理/规划/生成加速
Keywords: Token Caching · Sparse Rollout · Masked Latent · Diffusion Acceleration · Efficient Planning

📑 Table of Contents 1. 最值得重点阅读的 10 篇论文 2. 论文对比总结表 3. 可做创新点(3 个新研究方向) 4. 扩展阅读(额外高相关论文)

📌 1. 最值得重点阅读的 10 篇论文

1. WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

2026-03 arXiv:2603.06331 Diffusion World Model Token Caching

arxiv.org/abs/2603.06331

github.com/FofGofx/WorldCache

Diffusion World Model (video prediction / embodied simulation)

Denoising (3.7× end-to-end speedup)

🔑 一句话总结: 首次专门针对扩散世界模型的 token 缓存框架——利用曲率引导的异构 token 预测 + 混沌优先自适应跳步,在保持 98% 生成质量的同时实现最高 3.7× 推理加速。

扩散世界模型在统一世界模拟方面展现出巨大潜力,但迭代去噪的高计算成本限制了交互式应用和长时域 rollout。现有特征缓存方法主要针对单模态扩散模型(如图像生成),直接迁移到世界模型时面临两大障碍:(1) Token 异质性——多模态耦合和空间变化导致 token 之间预测难度差异巨大;(2) 非均匀时序动态——少数"困难 token"主导误差累积,均匀跳过策略要么不稳定要么过度保守。

🧠 核心方法架构示意
  Observation → [Encoder] → Latent z₀ → ═══ Denoising Loop ═══
                                            │
            ┌────────── WorldCache ──────────┤
            │  1. Curvature Score per token  │
            │  2. Predict easy tokens        │
            │  3. Detect chaotic drift       │
            │  4. Adaptive recompute only    │
            │     bottleneck tokens          │
            └────────────────────────────────┘
                                              ↓
                                         Clean ẑ → [Decoder] → Prediction
  

在多个扩散世界模型上验证(含 DIAMOND 等),评估长时域 rollout 质量、去噪步数减少比例、端到端延迟。最高 3.7× 加速,保持 98% rollout 质量。

依赖曲率计算的开销(需与加速收益 trade-off);对极端分布外场景的混沌 token 检测可能失效;目前仅在像素级世界模型上验证。

High — 代码开源,即插即用无需训练,可在 DreamerV3 / DIAMOND 等框架上直接测试。

(1) 将 WorldCache 的思想扩展到 latent-level world model(如 Dreamer 系列),缓存 RSSM 的 latent state 而非像素 token; (2) 结合 predictor-corrector 方法提升混沌 token 预测精度; (3) 与 speculative decoding 思路结合,用轻量草稿模型预测 easy token。

2. Horizon Imagination: Efficient On-Policy Rollout in Diffusion World Models

2026-02 ICLR 2026 Diffusion World Model Efficient Rollout

arxiv (search) · ICLR 2026 Proceedings

Diffusion World Model / Model-Based RL

Rollout(on-policy imagination 效率)

🔑 一句话总结: 提出 Horizon Imagination (HI),通过并行化的 horizon-level 想象替代传统逐帧串行 rollout,解决了扩散世界模型在强化学习中"要么模型太重、要么想象太慢"的核心效率瓶颈。

基于扩散的世界模型在生成保真度上远超传统 RSSM,但在控制任务中面临严重效率挑战:当前方法要么在推理时使用重量级模型,要么依赖高度串行的逐帧想象(每帧需完整去噪),两者都带来高昂计算成本。HI 的核心洞察是:扩散模型天然支持并行生成,可以同时"想象"整个 horizon 而非逐帧生成。

🧠 核心方法架构示意
  传统串行 Rollout:  z₀→[DM]→z₁→[DM]→z₂→...→zₕ  (H 次完整去噪)
         ↓ 改 ↓
  HI 并行 Rollout:   z₀ → [DM] → [z₁, z₂, ..., zₕ]  (一次去噪生成整个 horizon)
                          ↑
                   Action sequence 条件注入
  

在标准 MBRL benchmark 上对比串行 diffusion rollout,评估 planning 效率、策略性能和 wall-clock 时间。

并行生成可能牺牲帧间因果一致性;horizon 较长时扩散模型需要生成的内容量线性增长;对 action-conditioned 精细控制要求更高。

High — ICLR 2026 论文,方法和实验设置清晰。

(1) 结合 WorldCache 在每次 horizon-level 去噪中进一步加速; (2) 引入 temporal attention mask 增强帧间一致性; (3) 可扩展到 latent dynamics model,将"并行想象"从像素空间下沉到 latent 空间。

3. DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

2026-03 arXiv Autonomous Driving 1-Step Diffusion

arxiv (search)

Embodied Planning / Autonomous Driving / Latent World Model

Denoising(100步→1步,80× speedup)

🔑 一句话总结: 首个将扩散去噪从 100 步压缩到 1 步的 latent world model 框架(80× 加速),在保持视觉可解释性的同时实现自动驾驶场景下的高效 RL 训练。

在真实驾驶数据上训练 RL 策略成本极高且存在安全风险。现有方法使用扩散模型进行 world modeling 需要 100 步去噪推理,对于需要大量 rollout 的 MBRL 来说完全不可行。DreamerAD 通过将扩散采样从 100 步压缩到 1 步实现了 80× 加速,使扩散世界模型首次可以高效用于自动驾驶 RL 训练。

🧠 核心方法架构示意
  传统: Encoder→z₀ → Denoise(×100 step) → ẑ → Decoder → Frame   [⏱️ 100 步]
   ↓
  DreamerAD: Encoder→z₀ → 1-Step Distilled Denoise → ẑ → Decoder [⏱️ 1 步,80× 加速]
                          ↑
                     Action Embedding
  

自动驾驶场景下的 RL 训练效率和策略性能评估;对比标准扩散世界模型和 RSSM 类方法。

蒸馏过程中的质量损失需要 trade-off;1-step 模型可能丢失多步细化带来的细节;主要针对驾驶场景,泛化性待验证。

High — 方法清晰,diffusion distillation 技术成熟。

(1) 探索 2-4 步的渐进式蒸馏方案,在速度和质量间找最优平衡点; (2) 结合 consistency models (Song et al.) 替代蒸馏; (3) 将单步去噪推广到其他 embodied AI 任务(机器人操控、导航)。

4. MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis

2025-06 arXiv Embodied Planning Dual-System

arxiv (search)

Diffusion World Model / Embodied Planning

Planning + Denoising(双系统分工,快速系统规避慢速扩散)

🔑 一句话总结: 引入 Kahneman 式的双系统世界模型架构:System I(快速、隐式风险感知)处理常规决策,仅在检测到风险时唤醒 System II(慢速扩散生成)进行精细化规划,大幅减少扩散调用的频率。

将生成过程整合到特征学习中在技术和概念上都不成熟,且朴素的逐帧视频扩散对于实时规划来说计算效率太低。MinD 的核心洞察是:机器人决策大部分时间是常规操作,不需要每次都运行昂贵的扩散世界模型。通过双系统设计,仅在必要时调用扩散生成,大幅降低平均推理成本。

🧠 核心方法架构示意
  Observation → System I (Fast, Implicit) ──→ Action (safe, 90%+ cases)
                    │
                    ├── Risk Score high? ──→ System II (Slow, Diffusion WM)
                    │                              │
                    │                         Explicit future simulation
                    │                              │
                    └──────────────────────────────┴──→ Action (risky cases)
  

在机器人操控和导航任务上评估规划效率、安全性和任务成功率。

双系统切换边界的标定需要额外 engineering;System I 的隐式风险感知可能存在漏检;训练复杂度高于单系统方案。

Medium — 架构优雅但双系统训练复杂。

(1) System I 可替换为多种轻量世界模型(RSSM / 单步扩散 / 线性 dynamics); (2) 多层级切换(不仅是 binary,可以是连续的信噪比加权); (3) 迁移到自动驾驶场景——大部分直行场景用 System I,路口/复杂交互用 System II。

5. Next-Latent Prediction Transformers Learn Compact World Models

2025-11 arXiv Latent Dynamics Compact Model

arxiv (search)

Latent World Model / Visual RL

Latent Dynamics + Token Generation(更紧凑的 latent → 更快生成)

🔑 一句话总结: 提出 Next-Latent Prediction (NextLat) 方法——不改变 Transformer 架构和训练效率,仅通过改变训练目标让 Transformer 自动形成紧凑的 latent 世界模型,从而减少生成 token 数量和推理时间。

Transformer 在序列建模中表现出色,但标准 next-token prediction 目标迫使模型在输出空间上进行冗余建模,不利于形成紧凑的内部世界表征。NextLat 将预测目标从 token 空间移到了 latent 空间,在不改变推理架构的情况下让模型形成紧凑的内部世界模型。

🧠 核心方法架构示意
  标准 Next-Token:  [t₁, t₂, ..., tₙ] → predict tₙ₊₁ (raw token, large space)
   ↓
  NextLat:          [t₁, t₂, ..., tₙ] → predict zₙ₊₁ (compact latent, small space)
                                              ↓
                                        zₙ₊₁ → Decoder → tₙ₊₁
  

验证 latent 紧凑性(可视化)、生成质量、下游 RL 性能、推理速度对比。

Decoder 仍是瓶颈;latent 过小时信息损失不可逆;目前验证规模有限。

High — 方法极简,仅在 loss 层面修改。

(1) 将 NextLat 与 DreamerV3 的 RSSM 结合——在 latent 空间做 next-latent prediction; (2) 分层 latent(多尺度 compactness)实现可变推理精度; (3) 结合 token pruning 进一步减少 Decoder 的生成 token 数量。

6. Accurate and Efficient World Modeling with Masked Latent Transformers

2025-07 arXiv Video Prediction Masked Modeling

arxiv (search)

Video Prediction / Model-Based RL / Game World Model

Token Generation(MaskGIT 式并行解码替代自回归)

🔑 一句话总结: 将 MaskGIT 风格的并行解码引入世界模型的 latent space,解决 Dreamer 系列 latent 压缩导致的信息丢失问题,同时通过并行 token 生成实现显著加速。

Dreamer 类世界模型在多个环境域取得了显著性能,但其 latent space 的压缩特性会导致关键信息丢失,影响智能体表现。同时,自回归 token 生成十分低效。本文提出 Masked Latent Transformer:在 latent 空间中使用 MaskGIT 风格的并行解码,既提升了世界模型的精度(减少信息丢失),又通过并行生成实现了加速。

🧠 核心方法架构示意
  AR (Dreamer):       z₁→z₂→z₃→...zₙ    (串行 N 步)
  ↓
  Masked Latent TF:   [M,M,z₃,M,...] → predict masked tokens (并行)
                      [z₁,M,z₃,M,...] → predict remaining (迭代 K 步, K ≪ N)
  

在 Atari、DMControl 等标准 benchmark 上与 DreamerV3 对比,评估 token 生成效率和下游策略性能。

MaskGIT 迭代仍需要多步(虽然远少于自回归);latent token design 对性能影响大;对高度随机的环境可能不够稳定。

High — MaskGIT 技术在图像生成中已成熟,迁移到世界模型路径清晰。

(1) 进一步减少 MaskGIT 迭代步数(1-2 步),类似 DreamerAD 的蒸馏思路; (2) 在 latent 空间引入 adaptive masking schedule(简单帧少 mask 多 unmask,复杂帧多 mask 少 unmask); (3) 与 WorldCache 的 token-level caching 结合——mask 掉的 token 可以直接 cache 复用。

7. Masked Generative Priors Improve World Models Sequence Modelling Capabilities

2024-10 arXiv Model-Based RL Masked Prior

arxiv (search)

Model-Based RL / Sequence Modeling

Sequence Modeling(通过预训练先验减少训练和推理的 token 需求)

🔑 一句话总结: 将 masked generative pretraining 的先验注入世界模型的序列建模中,提升序列建模效率,减少达成同等性能所需的 token 数量。

世界模型的序列建模能力是 MBRL 的核心瓶颈。本文发现:通过在大规模数据上预训练 masked generative model(类似 MAE),可以获得强大的序列先验,将其注入世界模型后可以显著提升建模效率——即用更少的 token 达成同等或更好的序列预测性能。

🧠 核心方法架构示意
  Stage 1: 大规模视频 → Masked AE Pretrain → 通用序列先验
  Stage 2: 先验注入 → World Model Sequence Module → 更高效的序列建模
                                                    (更少 token = 更快生成)
  

多个 MBRL benchmark,对比有无 pretrained prior 的序列预测精度和 token 效率。

需要大规模预训练数据(与 MBRL 的 sample-efficient 理念有矛盾);先验迁移的领域 gap;推理加速是间接的。

Medium — 预训练成本高,但先验注入思路有价值。

(1) 使用已有的 foundation video model(如 Sora 的 encoder)作为现成先验,省去预训练成本; (2) 在 latent 空间而非 token 空间做先验迁移; (3) 结合 adapter-based finetuning 做领域适配。

8. DIAMOND: Diffusion for World Modeling — Visual Details Matter in Atari

2024-05 NeurIPS 2024 Spotlight Diffusion World Model Foundational

arxiv (search)

github.com/eloialonso/diamond

Diffusion World Model / Model-Based RL / Atari

(提供加速的 baseline 和动机)——高保真但极慢,催生后续加速工作

🔑 一句话总结: 扩散世界模型的里程碑工作(NeurIPS 2024 Spotlight)——证明扩散模型作为世界模型在 Atari 上可达到 SOTA,其视觉保真度远超 RSSM,但高昂推理成本也催生了 WorldCache、DreamerAD 等加速工作。

扩散模型已在图像生成中取代了基于离散 latent 的方法。DIAMOND 首次将扩散模型系统性地引入 MBRL 作为世界模型,证明扩散世界模型在 Atari 上可达到与 DreamerV3 相当甚至更好的性能,且具有更高的视觉保真度。但其推理速度慢(需要完整扩散去噪),成为后续加速研究的直接动机。

🧠 核心方法架构示意
  oₜ → Encoder → zₜ → Diffusion (×N steps) → zₜ₊₁ → Decoder → ôₜ₊₁
              ↑ Action aₜ                          (高保真,但慢)
  

Atari 100k benchmark,与 DreamerV3、STORM 等 MBRL 方法对比,评估 human-normalized score 和视觉质量。

推理速度是最大瓶颈(每次 rollout 需要完整扩散去噪);planning 效率远低于 RSSM;不适用于实时交互场景。

High — 代码开源,NeurIPS Spotlight,是加速研究的 baseline。

DIAMOND 本身是加速研究的"靶子"——WorldCache(缓存去噪)、DreamerAD(蒸馏到 1 步)、Horizon Imagination(并行 rollout)等后续工作都是直接受 DIAMOND 的推理瓶颈启发的。作为 baseline 必须阅读。

9. DreamerV3: Mastering Diverse Domains through World Models (Foundational)

2023-01 arXiv:2301.04104 Latent World Model Foundational

arxiv.org/abs/2301.04104

danijar.com/dreamerv3

Model-Based RL / Latent World Model / Game

(加速的载体)——DreamerV3 是目前最广泛使用的世界模型框架,几乎所有 latent 世界模型加速工作都在 Dreamer 框架上进行

🔑 一句话总结: 世界模型领域的 foundational work——统一算法在 150+ 任务上超越专用方法,首次从零开始收集 Minecraft 钻石。其 RSSM 架构是当前世界模型加速研究的主要载体。

DreamerV3 是 Dreamer 系列的集大成者,通过世界模型学习环境 dynamics 并在 latent 空间中通过"想象"改进行为。其核心贡献在于通过符号化、平衡和变换等鲁棒性技术实现了跨领域的稳定学习,是首个不依赖人类数据或课程学习从零开始收集 Minecraft 钻石的算法。

🧠 核心方法架构示意
  oₜ → Encoder → xₜ ──→ RSSM ──→ zₜ, hₜ ──→ Dynamics Predictor → ẑₜ₊₁
                   │     │                              │
                   │   Action aₜ                  Reward/Continue Predictor
                   │                                  │
                   └──────────────────────────────────┘
                         Latent Imagination (Planning in z-space)
  

150+ 任务涵盖 Atari、DMControl、Minecraft、Benchmark 等,单一配置超越专用方法。

自回归 latent rollout 是推理瓶颈(串行逐帧预测);RSSM capacity 有限(相对于 diffusion WM);latent 压缩可能导致信息丢失。

High — 必须阅读的 baseline,几乎所有世界模型加速工作都基于此。

DreamerV3 的 RSSM 是加速工作的核心目标——如何更快地进行 latent imagination?(参见 Masked Latent Transformers、NextLat 等)。其自回归 rollout 机制是 Horizon Imagination 要解决的核心问题。

10. Composition of Memory Experts for Diffusion World Models

2026-05 arXiv Diffusion World Model Memory Efficiency

arxiv (search)

Diffusion World Model / Video Prediction

Memory Access(通过 expert 组合替代大模型的全量计算)

🔑 一句话总结: 用组合化的 memory expert 替代单一大型 Transformer,解耦 future-past consistency 与架构选择,通过稀疏激活 expert 实现计算和存储的双重效率提升。

Transformer 在扩散世界模型中保持局部细节但受限于二次注意力复杂度;RNN/SSM 更高效但以压缩历史为代价降低保真度。本文提出将 future-past consistency 从单一架构中解耦,利用一组 memory expert 的组合来实现高效的世界模型。

  • MoME (Mixture of Memory Experts):多个小型 expert 各自擅长不同记忆模式
  • Compositional Inference:推理时根据上下文动态组合所需的 expert,稀疏激活
  • 🧠 核心方法架构示意
      Observation → Router → Expert₁ (local detail)
                           → Expert₂ (long-range context)
                           → Expert₃ (motion pattern)
                           → ⊗ Composition → Future Prediction
         (稀疏激活,仅需要的 expert 参与计算)
      

    扩散世界模型 benchmark,评估计算效率、存储效率和生成质量。

    Router 训练稳定性;expert 数量需要手动设计;稀疏激活的硬件效率依赖专门优化。

    Medium — MoE 技术成熟但世界模型场景下的实现细节复杂。

    (1) 将 MoME 与 WorldCache 结合——cached token 也可以作为 implicit expert; (2) expert 可以对应不同的物理法则(重力 expert、碰撞 expert 等),实现更可解释的分解; (3) 动态 expert 增长(lifelong world model learning)。

    📊 2. 论文对比总结表

    论文年份会议加速对象技术路线加速倍数复现价值
    WorldCache2026arXivDenoising异构 Token Caching3.7×High
    Horizon Imagination2026ICLRRollout并行 Horizon 生成~H× (H=horizon)High
    DreamerAD2026arXivDenoising1-Step 蒸馏80×High
    MinD2025arXivPlanning双系统自适应按风险比例Medium
    NextLat2025arXivToken GenerationNext-Latent Prediction间接High
    Masked Latent TF2025arXivToken GenerationMaskGIT 并行解码~N/K×High
    Masked Gen Priors2024arXivSequence Modeling预训练先验注入间接Medium
    DIAMOND2024NeurIPS(Baseline)扩散世界模型High
    DreamerV32023arXiv(Baseline)RSSM + ImaginationHigh
    MoME2026arXivMemory AccessExpert 组合稀疏激活比Medium

    加速维度 × 技术路线 矩阵

    加速维度 \ 技术CachingDistillationParallelAdaptiveCompactMoE
    DenoisingWorldCacheDreamerAD
    RolloutHorizon ImaginationMinD
    Token GenerationMasked Latent TFNextLat
    PlanningMinD
    MemoryWorldCacheMoME
    Sequence ModelMasked Gen Priors

    💡 3. 可做创新点(3 个新研究方向)

    🔬 创新方向 1:Speculative World Model — 草稿-验证式世界模型推理

    核心想法: 将 LLM 领域的 Speculative Decoding 思想系统性地引入世界模型。用轻量"草稿世界模型"(如线性 dynamics / 单步扩散 / RSSM)快速生成候选 trajectory,再用高质量"验证世界模型"(完整扩散)进行 verification 和 refinement。

    为什么现在做:

    与现有工作的区别: 现有工作(DreamerAD, WorldCache)都是"加速单个模型",而 speculative world model 是"用便宜模型 + 贵模型协同加速"。

    可行性: 高。DreamerV3 RSSM 作为 draft,DIAMOND 作为 verifier,直接在 Atari/DMControl 上实验验证。

    🔬 创新方向 2:Temporal Redundancy-Aware World Model Compression

    核心想法: 世界模型在不同时间尺度的信息冗余度不同——相邻帧高度冗余,远距帧信息独立。设计时间感知的自适应计算预算分配:近邻帧用 1-step 或 cache,远距帧、关键帧(场景切换)才用全量扩散。

    为什么现在做:

    与现有工作的区别: WorldCache 只做 token-level caching,不考虑 temporal scale;MinD 只区分 safe/risky。本方案引入"时间冗余度"这一新维度,多层级自适应调度。

    可行性: 高。可在 WorldCache 框架上扩展,加入 temporal keyframe detector 模块。

    🔬 创新方向 3:Unified World Model Acceleration Benchmark (WorldBench-A)

    核心想法: 目前世界模型加速工作各自为政,使用不同的 baseline、不同的环境和不同的加速度量标准。建立一个统一的 benchmark:(1) 涵盖 DreamerV3、DIAMOND、IRIS 等主流 world model 架构;(2) 覆盖 denoising、rollout、planning、token generation 四大加速维度;(3) 使用统一的 quality-vs-speed Pareto frontier 评估指标。

    为什么现在做:

    与现有工作的区别: 不做新方法,做标准化的评估体系——但一个有影响力的 benchmark 本身就是重要贡献。

    可行性: 中等。需要统一多个框架的 API,但核心评估 protocol 设计清晰。

    📚 4. 扩展阅读(额外高相关论文)

    StateSpaceDiffuser: Bringing Long Context to Diffusion World Models

    2025-05 Long Context arXiv

    将 State Space Model (Mamba) 引入扩散世界模型以支持长上下文,解决长序列下 Transformer 注意力复杂度爆炸的问题。

    Long-context attention → 线性复杂度替代二次复杂度。

    Epona: Autoregressive Diffusion World Model for Autonomous Driving

    2025-06 Autonomous Driving arXiv

    自回归扩散世界模型,实现局部时空分布建模。其"分块自回归"设计避免了全帧序列的去噪,是一种隐式的加速策略。

    An Efficient and Multi-Modal Navigation System with One-Step World Model

    2026-01 Navigation arXiv

    将世界模型应用于导航任务,使用单步预测代替多步 rollout,验证了 1-step world model 在特定任务上的有效性。

    GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation

    2026-05 3D World Model arXiv

    使用 Feed-Forward 3D Gaussian Splatting 作为世界模型——天然避免迭代去噪,一步前馈即可生成未来场景。

    World4RL: Diffusion World Models for Policy Refinement with RL

    2025-09 Policy Optimization arXiv

    扩散世界模型用于端到端策略优化(非 planning),预训练多任务扩散动力学后直接做 policy refinement。

    Q-ARVD: Quantizing Autoregressive Video Diffusion Models

    2026-05 Quantization arXiv

    对自回归视频扩散模型进行量化以加速推理,适用于基于离散 token 的世界模型(如 IRIS/TWM 系列)。

    Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

    2026-05 Adaptive Planning arXiv

    三系统架构(System I 执行 + System II 模拟推理 + System III 自调节规划深度),自调节何时用世界模型进行深度规划。


    🏷️ 关键概念解释

    World Model 加速 vs 通用视频生成加速——关键区别

    维度通用视频生成加速世界模型加速
    核心目标生成高质量视频准确预测环境 dynamics 以支持决策
    输入文本/图像 prompt当前观测 + 动作序列
    加速瓶颈去噪步数、模型大小去噪步数 + 自回归 rollout + planning 搜索 + memory 开销
    质量要求视觉质量为主物理一致性 + 因果正确性 + 视觉质量
    交互性通常非交互需支持实时交互(机器人、自动驾驶)
    关键挑战单帧生成效率长时域 rollout 的误差累积 + 多步并行效率