World Model Acceleration Paper Survey

📅 Generated: 2026-05-25 · Scope: 2023–2026 · Focus: 世界模型推理/规划/生成加速
Keywords: Token Caching · Sparse Rollout · Masked Latent · Diffusion Acceleration · Efficient Planning

📌 1. 最值得重点阅读的 10 篇论文

1. WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

2026-03 arXiv:2603.06331 Diffusion World Model Token Caching

🔗 URL: arxiv.org/abs/2603.06331

💻 Code: github.com/FofGofx/WorldCache

📋 任务类型: Diffusion World Model (video prediction / embodied simulation)

⚡ 加速对象: Denoising (3.7× end-to-end speedup)

🔑 一句话总结: 首次专门针对扩散世界模型的 token 缓存框架——利用曲率引导的异构 token 预测 + 混沌优先自适应跳步，在保持 98% 生成质量的同时实现最高 3.7× 推理加速。

📖 Introduction: 扩散世界模型在统一世界模拟方面展现出巨大潜力，但迭代去噪的高计算成本限制了交互式应用和长时域 rollout。现有特征缓存方法主要针对单模态扩散模型（如图像生成），直接迁移到世界模型时面临两大障碍：(1) Token 异质性——多模态耦合和空间变化导致 token 之间预测难度差异巨大；(2) 非均匀时序动态——少数"困难 token"主导误差累积，均匀跳过策略要么不稳定要么过度保守。

🔬 核心方法:

Curvature-guided Heterogeneous Token Prediction（曲率引导的异构 token 预测）：引入基于物理启发的曲率分数来估计 token 的可预测性，对方向突变的混沌 token 使用 Hermite 引导的阻尼预测器
Chaotic-prioritized Adaptive Skipping（混沌优先自适应跳步）：累积曲率归一化的无量纲漂移信号，仅在瓶颈 token 开始漂移时重新计算
无需额外训练——"for free" 的即插即用框架

🧠 核心方法架构示意

  Observation → [Encoder] → Latent z₀ → ═══ Denoising Loop ═══
                                            │
            ┌────────── WorldCache ──────────┤
            │  1. Curvature Score per token  │
            │  2. Predict easy tokens        │
            │  3. Detect chaotic drift       │
            │  4. Adaptive recompute only    │
            │     bottleneck tokens          │
            └────────────────────────────────┘
                                              ↓
                                         Clean ẑ → [Decoder] → Prediction

📊 实验: 在多个扩散世界模型上验证（含 DIAMOND 等），评估长时域 rollout 质量、去噪步数减少比例、端到端延迟。最高 3.7× 加速，保持 98% rollout 质量。

⚠️ 局限: 依赖曲率计算的开销（需与加速收益 trade-off）；对极端分布外场景的混沌 token 检测可能失效；目前仅在像素级世界模型上验证。

⭐ 复现价值: High — 代码开源，即插即用无需训练，可在 DreamerV3 / DIAMOND 等框架上直接测试。

💡 启发与延展: (1) 将 WorldCache 的思想扩展到 latent-level world model（如 Dreamer 系列），缓存 RSSM 的 latent state 而非像素 token； (2) 结合 predictor-corrector 方法提升混沌 token 预测精度； (3) 与 speculative decoding 思路结合，用轻量草稿模型预测 easy token。

2. Horizon Imagination: Efficient On-Policy Rollout in Diffusion World Models

2026-02 ICLR 2026 Diffusion World Model Efficient Rollout

🔗 URL: arxiv (search) · ICLR 2026 Proceedings

📋 任务类型: Diffusion World Model / Model-Based RL

⚡ 加速对象: Rollout（on-policy imagination 效率）

🔑 一句话总结: 提出 Horizon Imagination (HI)，通过并行化的 horizon-level 想象替代传统逐帧串行 rollout，解决了扩散世界模型在强化学习中"要么模型太重、要么想象太慢"的核心效率瓶颈。

📖 Introduction: 基于扩散的世界模型在生成保真度上远超传统 RSSM，但在控制任务中面临严重效率挑战：当前方法要么在推理时使用重量级模型，要么依赖高度串行的逐帧想象（每帧需完整去噪），两者都带来高昂计算成本。HI 的核心洞察是：扩散模型天然支持并行生成，可以同时"想象"整个 horizon 而非逐帧生成。

🔬 核心方法:

Horizon-level Parallel Imagination：将整个规划 horizon 的帧打包为单个扩散生成目标，利用扩散模型的并行性一次生成整个 trajectory
On-policy Correction：在 rollout 过程中动态调整以保持 on-policy 特性
Lightweight Draft Model：用轻量模型做 draft，扩散模型做 refine，类似 speculative decoding 思路

🧠 核心方法架构示意

  传统串行 Rollout:  z₀→[DM]→z₁→[DM]→z₂→...→zₕ  (H 次完整去噪)
         ↓ 改 ↓
  HI 并行 Rollout:   z₀ → [DM] → [z₁, z₂, ..., zₕ]  (一次去噪生成整个 horizon)
                          ↑
                   Action sequence 条件注入

📊 实验: 在标准 MBRL benchmark 上对比串行 diffusion rollout，评估 planning 效率、策略性能和 wall-clock 时间。

⚠️ 局限: 并行生成可能牺牲帧间因果一致性；horizon 较长时扩散模型需要生成的内容量线性增长；对 action-conditioned 精细控制要求更高。

⭐ 复现价值: High — ICLR 2026 论文，方法和实验设置清晰。

💡 启发与延展: (1) 结合 WorldCache 在每次 horizon-level 去噪中进一步加速； (2) 引入 temporal attention mask 增强帧间一致性； (3) 可扩展到 latent dynamics model，将"并行想象"从像素空间下沉到 latent 空间。

3. DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

2026-03 arXiv Autonomous Driving 1-Step Diffusion

🔗 URL: arxiv (search)

📋 任务类型: Embodied Planning / Autonomous Driving / Latent World Model

⚡ 加速对象: Denoising（100步→1步，80× speedup）

🔑 一句话总结: 首个将扩散去噪从 100 步压缩到 1 步的 latent world model 框架（80× 加速），在保持视觉可解释性的同时实现自动驾驶场景下的高效 RL 训练。

📖 Introduction: 在真实驾驶数据上训练 RL 策略成本极高且存在安全风险。现有方法使用扩散模型进行 world modeling 需要 100 步去噪推理，对于需要大量 rollout 的 MBRL 来说完全不可行。DreamerAD 通过将扩散采样从 100 步压缩到 1 步实现了 80× 加速，使扩散世界模型首次可以高效用于自动驾驶 RL 训练。

🔬 核心方法:

1-Step Diffusion Distillation：通过蒸馏将多步扩散模型压缩为单步推理模型
Latent World Model Framework：在 latent 空间而非像素空间进行扩散，进一步提升效率
保持了扩散模型的视觉可解释性优势

🧠 核心方法架构示意

  传统: Encoder→z₀ → Denoise(×100 step) → ẑ → Decoder → Frame   [⏱️ 100 步]
   ↓
  DreamerAD: Encoder→z₀ → 1-Step Distilled Denoise → ẑ → Decoder [⏱️ 1 步，80× 加速]
                          ↑
                     Action Embedding

📊 实验: 自动驾驶场景下的 RL 训练效率和策略性能评估；对比标准扩散世界模型和 RSSM 类方法。

⚠️ 局限: 蒸馏过程中的质量损失需要 trade-off；1-step 模型可能丢失多步细化带来的细节；主要针对驾驶场景，泛化性待验证。

⭐ 复现价值: High — 方法清晰，diffusion distillation 技术成熟。

💡 启发与延展: (1) 探索 2-4 步的渐进式蒸馏方案，在速度和质量间找最优平衡点； (2) 结合 consistency models (Song et al.) 替代蒸馏； (3) 将单步去噪推广到其他 embodied AI 任务（机器人操控、导航）。

4. MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis

2025-06 arXiv Embodied Planning Dual-System

🔗 URL: arxiv (search)

📋 任务类型: Diffusion World Model / Embodied Planning

⚡ 加速对象: Planning + Denoising（双系统分工，快速系统规避慢速扩散）

🔑 一句话总结: 引入 Kahneman 式的双系统世界模型架构：System I（快速、隐式风险感知）处理常规决策，仅在检测到风险时唤醒 System II（慢速扩散生成）进行精细化规划，大幅减少扩散调用的频率。

📖 Introduction: 将生成过程整合到特征学习中在技术和概念上都不成熟，且朴素的逐帧视频扩散对于实时规划来说计算效率太低。MinD 的核心洞察是：机器人决策大部分时间是常规操作，不需要每次都运行昂贵的扩散世界模型。通过双系统设计，仅在必要时调用扩散生成，大幅降低平均推理成本。

🔬 核心方法:

System I (Fast)：隐式风险感知模块，处理常规状态下的快速决策
System II (Slow)：扩散世界模型，仅在检测到潜在风险时被唤醒
Adaptive Switching：基于不确定性估计的系统切换机制

🧠 核心方法架构示意

  Observation → System I (Fast, Implicit) ──→ Action (safe, 90%+ cases)
                    │
                    ├── Risk Score high? ──→ System II (Slow, Diffusion WM)
                    │                              │
                    │                         Explicit future simulation
                    │                              │
                    └──────────────────────────────┴──→ Action (risky cases)

📊 实验: 在机器人操控和导航任务上评估规划效率、安全性和任务成功率。

⚠️ 局限: 双系统切换边界的标定需要额外 engineering；System I 的隐式风险感知可能存在漏检；训练复杂度高于单系统方案。

⭐ 复现价值: Medium — 架构优雅但双系统训练复杂。

💡 启发与延展: (1) System I 可替换为多种轻量世界模型（RSSM / 单步扩散 / 线性 dynamics）； (2) 多层级切换（不仅是 binary，可以是连续的信噪比加权）； (3) 迁移到自动驾驶场景——大部分直行场景用 System I，路口/复杂交互用 System II。

5. Next-Latent Prediction Transformers Learn Compact World Models

2025-11 arXiv Latent Dynamics Compact Model

🔗 URL: arxiv (search)

📋 任务类型: Latent World Model / Visual RL

⚡ 加速对象: Latent Dynamics + Token Generation（更紧凑的 latent → 更快生成）

🔑 一句话总结: 提出 Next-Latent Prediction (NextLat) 方法——不改变 Transformer 架构和训练效率，仅通过改变训练目标让 Transformer 自动形成紧凑的 latent 世界模型，从而减少生成 token 数量和推理时间。

📖 Introduction: Transformer 在序列建模中表现出色，但标准 next-token prediction 目标迫使模型在输出空间上进行冗余建模，不利于形成紧凑的内部世界表征。NextLat 将预测目标从 token 空间移到了 latent 空间，在不改变推理架构的情况下让模型形成紧凑的内部世界模型。

🔬 核心方法:

Next-Latent Prediction：训练目标改为预测下一时刻的 latent state 而非 raw token
Architecture-Preserving：Transformer 架构完全不变，仅改变 loss 目标

🧠 核心方法架构示意

  标准 Next-Token:  [t₁, t₂, ..., tₙ] → predict tₙ₊₁ (raw token, large space)
   ↓
  NextLat:          [t₁, t₂, ..., tₙ] → predict zₙ₊₁ (compact latent, small space)
                                              ↓
                                        zₙ₊₁ → Decoder → tₙ₊₁

📊 实验: 验证 latent 紧凑性（可视化）、生成质量、下游 RL 性能、推理速度对比。

⚠️ 局限: Decoder 仍是瓶颈；latent 过小时信息损失不可逆；目前验证规模有限。

⭐ 复现价值: High — 方法极简，仅在 loss 层面修改。

💡 启发与延展: (1) 将 NextLat 与 DreamerV3 的 RSSM 结合——在 latent 空间做 next-latent prediction； (2) 分层 latent（多尺度 compactness）实现可变推理精度； (3) 结合 token pruning 进一步减少 Decoder 的生成 token 数量。

6. Accurate and Efficient World Modeling with Masked Latent Transformers

2025-07 arXiv Video Prediction Masked Modeling

🔗 URL: arxiv (search)

📋 任务类型: Video Prediction / Model-Based RL / Game World Model

⚡ 加速对象: Token Generation（MaskGIT 式并行解码替代自回归）

🔑 一句话总结: 将 MaskGIT 风格的并行解码引入世界模型的 latent space，解决 Dreamer 系列 latent 压缩导致的信息丢失问题，同时通过并行 token 生成实现显著加速。

📖 Introduction: Dreamer 类世界模型在多个环境域取得了显著性能，但其 latent space 的压缩特性会导致关键信息丢失，影响智能体表现。同时，自回归 token 生成十分低效。本文提出 Masked Latent Transformer：在 latent 空间中使用 MaskGIT 风格的并行解码，既提升了世界模型的精度（减少信息丢失），又通过并行生成实现了加速。

🔬 核心方法:

Masked Latent Modeling：在 latent space 而非像素空间做 masked modeling
MaskGIT-style Parallel Decoding：迭代式并行解码，每步预测多个 token
Latent Tokenization：优化 latent token 的表达效率

🧠 核心方法架构示意

  AR (Dreamer):       z₁→z₂→z₃→...zₙ    (串行 N 步)
  ↓
  Masked Latent TF:   [M,M,z₃,M,...] → predict masked tokens (并行)
                      [z₁,M,z₃,M,...] → predict remaining (迭代 K 步, K ≪ N)

📊 实验: 在 Atari、DMControl 等标准 benchmark 上与 DreamerV3 对比，评估 token 生成效率和下游策略性能。

⚠️ 局限: MaskGIT 迭代仍需要多步（虽然远少于自回归）；latent token design 对性能影响大；对高度随机的环境可能不够稳定。

⭐ 复现价值: High — MaskGIT 技术在图像生成中已成熟，迁移到世界模型路径清晰。

💡 启发与延展: (1) 进一步减少 MaskGIT 迭代步数（1-2 步），类似 DreamerAD 的蒸馏思路； (2) 在 latent 空间引入 adaptive masking schedule（简单帧少 mask 多 unmask，复杂帧多 mask 少 unmask）； (3) 与 WorldCache 的 token-level caching 结合——mask 掉的 token 可以直接 cache 复用。

7. Masked Generative Priors Improve World Models Sequence Modelling Capabilities

2024-10 arXiv Model-Based RL Masked Prior

🔗 URL: arxiv (search)

📋 任务类型: Model-Based RL / Sequence Modeling

⚡ 加速对象: Sequence Modeling（通过预训练先验减少训练和推理的 token 需求）

🔑 一句话总结: 将 masked generative pretraining 的先验注入世界模型的序列建模中，提升序列建模效率，减少达成同等性能所需的 token 数量。

📖 Introduction: 世界模型的序列建模能力是 MBRL 的核心瓶颈。本文发现：通过在大规模数据上预训练 masked generative model（类似 MAE），可以获得强大的序列先验，将其注入世界模型后可以显著提升建模效率——即用更少的 token 达成同等或更好的序列预测性能。

🔬 核心方法:

在大规模视频/序列数据上预训练 masked autoencoder，提取生成式先验
将先验注入世界模型的序列建模模块（替换随机初始化的组件）
通过 reduce token count 实现间接加速

🧠 核心方法架构示意

  Stage 1: 大规模视频 → Masked AE Pretrain → 通用序列先验
  Stage 2: 先验注入 → World Model Sequence Module → 更高效的序列建模
                                                    (更少 token = 更快生成)

📊 实验: 多个 MBRL benchmark，对比有无 pretrained prior 的序列预测精度和 token 效率。

⚠️ 局限: 需要大规模预训练数据（与 MBRL 的 sample-efficient 理念有矛盾）；先验迁移的领域 gap；推理加速是间接的。

⭐ 复现价值: Medium — 预训练成本高，但先验注入思路有价值。

💡 启发与延展: (1) 使用已有的 foundation video model（如 Sora 的 encoder）作为现成先验，省去预训练成本； (2) 在 latent 空间而非 token 空间做先验迁移； (3) 结合 adapter-based finetuning 做领域适配。

8. DIAMOND: Diffusion for World Modeling — Visual Details Matter in Atari

2024-05 NeurIPS 2024 Spotlight Diffusion World Model Foundational

🔗 URL: arxiv (search)

💻 Code: github.com/eloialonso/diamond

📋 任务类型: Diffusion World Model / Model-Based RL / Atari

⚡ 加速对象: （提供加速的 baseline 和动机）——高保真但极慢，催生后续加速工作

🔑 一句话总结: 扩散世界模型的里程碑工作（NeurIPS 2024 Spotlight）——证明扩散模型作为世界模型在 Atari 上可达到 SOTA，其视觉保真度远超 RSSM，但高昂推理成本也催生了 WorldCache、DreamerAD 等加速工作。

📖 Introduction: 扩散模型已在图像生成中取代了基于离散 latent 的方法。DIAMOND 首次将扩散模型系统性地引入 MBRL 作为世界模型，证明扩散世界模型在 Atari 上可达到与 DreamerV3 相当甚至更好的性能，且具有更高的视觉保真度。但其推理速度慢（需要完整扩散去噪），成为后续加速研究的直接动机。

🔬 核心方法:

将扩散模型作为环境 dynamics 的生成模型
在 diffusion latent space 中做 planning（类似 Dreamer 在 RSSM latent 中做 planning）
验证了 visual details 对 RL 性能的重要性

🧠 核心方法架构示意

  oₜ → Encoder → zₜ → Diffusion (×N steps) → zₜ₊₁ → Decoder → ôₜ₊₁
              ↑ Action aₜ                          (高保真，但慢)

📊 实验: Atari 100k benchmark，与 DreamerV3、STORM 等 MBRL 方法对比，评估 human-normalized score 和视觉质量。

⚠️ 局限: 推理速度是最大瓶颈（每次 rollout 需要完整扩散去噪）；planning 效率远低于 RSSM；不适用于实时交互场景。

⭐ 复现价值: High — 代码开源，NeurIPS Spotlight，是加速研究的 baseline。

💡 启发与延展: DIAMOND 本身是加速研究的"靶子"——WorldCache（缓存去噪）、DreamerAD（蒸馏到 1 步）、Horizon Imagination（并行 rollout）等后续工作都是直接受 DIAMOND 的推理瓶颈启发的。作为 baseline 必须阅读。

9. DreamerV3: Mastering Diverse Domains through World Models (Foundational)

2023-01 arXiv:2301.04104 Latent World Model Foundational

🔗 URL: arxiv.org/abs/2301.04104

💻 Code: danijar.com/dreamerv3

📋 任务类型: Model-Based RL / Latent World Model / Game

⚡ 加速对象: （加速的载体）——DreamerV3 是目前最广泛使用的世界模型框架，几乎所有 latent 世界模型加速工作都在 Dreamer 框架上进行

🔑 一句话总结: 世界模型领域的 foundational work——统一算法在 150+ 任务上超越专用方法，首次从零开始收集 Minecraft 钻石。其 RSSM 架构是当前世界模型加速研究的主要载体。

📖 Introduction: DreamerV3 是 Dreamer 系列的集大成者，通过世界模型学习环境 dynamics 并在 latent 空间中通过"想象"改进行为。其核心贡献在于通过符号化、平衡和变换等鲁棒性技术实现了跨领域的稳定学习，是首个不依赖人类数据或课程学习从零开始收集 Minecraft 钻石的算法。

🔬 核心方法:

RSSM (Recurrent State-Space Model)：核心 world model 架构
Latent Imagination：在 latent space 中进行 rollout 和 planning
Robustness Techniques：symlog 变换、EMA 归一化等

🧠 核心方法架构示意

  oₜ → Encoder → xₜ ──→ RSSM ──→ zₜ, hₜ ──→ Dynamics Predictor → ẑₜ₊₁
                   │     │                              │
                   │   Action aₜ                  Reward/Continue Predictor
                   │                                  │
                   └──────────────────────────────────┘
                         Latent Imagination (Planning in z-space)

📊 实验: 150+ 任务涵盖 Atari、DMControl、Minecraft、Benchmark 等，单一配置超越专用方法。

⚠️ 局限: 自回归 latent rollout 是推理瓶颈（串行逐帧预测）；RSSM capacity 有限（相对于 diffusion WM）；latent 压缩可能导致信息丢失。

⭐ 复现价值: High — 必须阅读的 baseline，几乎所有世界模型加速工作都基于此。

💡 启发与延展: DreamerV3 的 RSSM 是加速工作的核心目标——如何更快地进行 latent imagination？（参见 Masked Latent Transformers、NextLat 等）。其自回归 rollout 机制是 Horizon Imagination 要解决的核心问题。

10. Composition of Memory Experts for Diffusion World Models

2026-05 arXiv Diffusion World Model Memory Efficiency

🔗 URL: arxiv (search)

📋 任务类型: Diffusion World Model / Video Prediction

⚡ 加速对象: Memory Access（通过 expert 组合替代大模型的全量计算）

🔑 一句话总结: 用组合化的 memory expert 替代单一大型 Transformer，解耦 future-past consistency 与架构选择，通过稀疏激活 expert 实现计算和存储的双重效率提升。

📖 Introduction: Transformer 在扩散世界模型中保持局部细节但受限于二次注意力复杂度；RNN/SSM 更高效但以压缩历史为代价降低保真度。本文提出将 future-past consistency 从单一架构中解耦，利用一组 memory expert 的组合来实现高效的世界模型。

🔬 核心方法:

MoME (Mixture of Memory Experts)：多个小型 expert 各自擅长不同记忆模式

Compositional Inference：推理时根据上下文动态组合所需的 expert，稀疏激活

🧠 核心方法架构示意

  Observation → Router → Expert₁ (local detail)
                       → Expert₂ (long-range context)
                       → Expert₃ (motion pattern)
                       → ⊗ Composition → Future Prediction
     (稀疏激活，仅需要的 expert 参与计算)

📊 实验: 扩散世界模型 benchmark，评估计算效率、存储效率和生成质量。

⚠️ 局限: Router 训练稳定性；expert 数量需要手动设计；稀疏激活的硬件效率依赖专门优化。

⭐ 复现价值: Medium — MoE 技术成熟但世界模型场景下的实现细节复杂。

💡 启发与延展: (1) 将 MoME 与 WorldCache 结合——cached token 也可以作为 implicit expert； (2) expert 可以对应不同的物理法则（重力 expert、碰撞 expert 等），实现更可解释的分解； (3) 动态 expert 增长（lifelong world model learning）。

📊 2. 论文对比总结表

加速维度 × 技术路线矩阵

💡 3. 可做创新点（3 个新研究方向）

论文	年份	会议	加速对象	技术路线	加速倍数	复现价值
WorldCache	2026	arXiv	Denoising	异构 Token Caching	3.7×	High
Horizon Imagination	2026	ICLR	Rollout	并行 Horizon 生成	~H× (H=horizon)	High
DreamerAD	2026	arXiv	Denoising	1-Step 蒸馏	80×	High
MinD	2025	arXiv	Planning	双系统自适应	按风险比例	Medium
NextLat	2025	arXiv	Token Generation	Next-Latent Prediction	间接	High
Masked Latent TF	2025	arXiv	Token Generation	MaskGIT 并行解码	~N/K×	High
Masked Gen Priors	2024	arXiv	Sequence Modeling	预训练先验注入	间接	Medium
DIAMOND	2024	NeurIPS	(Baseline)	扩散世界模型	—	High
DreamerV3	2023	arXiv	(Baseline)	RSSM + Imagination	—	High
MoME	2026	arXiv	Memory Access	Expert 组合	稀疏激活比	Medium

加速维度 \ 技术	Caching	Distillation	Parallel	Adaptive	Compact	MoE
Denoising	WorldCache	DreamerAD	—	—	—	—
Rollout	—	—	Horizon Imagination	MinD	—	—
Token Generation	—	—	Masked Latent TF	—	NextLat	—
Planning	—	—	—	MinD	—	—
Memory	WorldCache	—	—	—	—	MoME
Sequence Model	—	—	—	—	Masked Gen Priors	—

🔬 创新方向 1：Speculative World Model — 草稿-验证式世界模型推理

核心想法： 将 LLM 领域的 Speculative Decoding 思想系统性地引入世界模型。用轻量"草稿世界模型"（如线性 dynamics / 单步扩散 / RSSM）快速生成候选 trajectory，再用高质量"验证世界模型"（完整扩散）进行 verification 和 refinement。

为什么现在做：

LLM 中 speculative decoding 已被证明有效（2-3× 加速）
世界模型天然适合——已有 DreamerV3 (draft) + DIAMOND (verifier) 这样的候选配对
WorldCache 的 token heterogeneity 分析提供了验证"哪些 token 需要 refresh"的理论工具
MinD 的双系统设计已初步验证了 fast-slow 架构的可行性

与现有工作的区别： 现有工作（DreamerAD, WorldCache）都是"加速单个模型"，而 speculative world model 是"用便宜模型 + 贵模型协同加速"。

可行性： 高。DreamerV3 RSSM 作为 draft，DIAMOND 作为 verifier，直接在 Atari/DMControl 上实验验证。

🔬 创新方向 2：Temporal Redundancy-Aware World Model Compression

核心想法： 世界模型在不同时间尺度的信息冗余度不同——相邻帧高度冗余，远距帧信息独立。设计时间感知的自适应计算预算分配：近邻帧用 1-step 或 cache，远距帧、关键帧（场景切换）才用全量扩散。

为什么现在做：

WorldCache 发现了 token heterogeneity 和 non-uniform temporal dynamics
DreamerAD 证明了 1-step 去噪的可能性
目前没有工作同时从时间和空间两个维度做自适应加速
视频压缩领域的 keyframe/inter-frame 概念可直接迁移

与现有工作的区别： WorldCache 只做 token-level caching，不考虑 temporal scale；MinD 只区分 safe/risky。本方案引入"时间冗余度"这一新维度，多层级自适应调度。

可行性： 高。可在 WorldCache 框架上扩展，加入 temporal keyframe detector 模块。

🔬 创新方向 3：Unified World Model Acceleration Benchmark (WorldBench-A)

核心想法： 目前世界模型加速工作各自为政，使用不同的 baseline、不同的环境和不同的加速度量标准。建立一个统一的 benchmark：(1) 涵盖 DreamerV3、DIAMOND、IRIS 等主流 world model 架构；(2) 覆盖 denoising、rollout、planning、token generation 四大加速维度；(3) 使用统一的 quality-vs-speed Pareto frontier 评估指标。

为什么现在做：

2026 年已有足够多的加速方法（WorldCache, DreamerAD, Horizon Imagination, MinD, Masked Latent TF...），但缺乏统一对比
每篇论文的加速倍数定义不同（去噪步数 vs wall-clock vs FLOPs）
缺乏标准化的 quality-speed trade-off 分析
类似工作：LLM 领域有 HELM / AlpacaEval，世界模型加速领域是空白

与现有工作的区别： 不做新方法，做标准化的评估体系——但一个有影响力的 benchmark 本身就是重要贡献。

可行性： 中等。需要统一多个框架的 API，但核心评估 protocol 设计清晰。

维度	通用视频生成加速	世界模型加速
核心目标	生成高质量视频	准确预测环境 dynamics 以支持决策
输入	文本/图像 prompt	当前观测 + 动作序列
加速瓶颈	去噪步数、模型大小	去噪步数 + 自回归 rollout + planning 搜索 + memory 开销
质量要求	视觉质量为主	物理一致性 + 因果正确性 + 视觉质量
交互性	通常非交互	需支持实时交互（机器人、自动驾驶）
关键挑战	单帧生成效率	长时域 rollout 的误差累积 + 多步并行效率

🌍 World Model Acceleration Paper Survey

📌 1. 最值得重点阅读的 10 篇论文

1. WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

2. Horizon Imagination: Efficient On-Policy Rollout in Diffusion World Models

3. DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

4. MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis

5. Next-Latent Prediction Transformers Learn Compact World Models

6. Accurate and Efficient World Modeling with Masked Latent Transformers

7. Masked Generative Priors Improve World Models Sequence Modelling Capabilities

8. DIAMOND: Diffusion for World Modeling — Visual Details Matter in Atari

9. DreamerV3: Mastering Diverse Domains through World Models (Foundational)

10. Composition of Memory Experts for Diffusion World Models

📊 2. 论文对比总结表

加速维度 × 技术路线矩阵

💡 3. 可做创新点（3 个新研究方向）

🔬 创新方向 1：Speculative World Model — 草稿-验证式世界模型推理

🔬 创新方向 2：Temporal Redundancy-Aware World Model Compression

🔬 创新方向 3：Unified World Model Acceleration Benchmark (WorldBench-A)

📚 4. 扩展阅读（额外高相关论文）

StateSpaceDiffuser: Bringing Long Context to Diffusion World Models

Epona: Autoregressive Diffusion World Model for Autonomous Driving

An Efficient and Multi-Modal Navigation System with One-Step World Model

GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation

World4RL: Diffusion World Models for Policy Refinement with RL

Q-ARVD: Quantizing Autoregressive Video Diffusion Models

Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

🏷️ 关键概念解释

World Model 加速 vs 通用视频生成加速——关键区别

🌍 World Model Acceleration Paper Survey

📌 1. 最值得重点阅读的 10 篇论文

1. WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

2. Horizon Imagination: Efficient On-Policy Rollout in Diffusion World Models

3. DreamerAD: Efficient Reinforcement Learning via Latent World Model for Autonomous Driving

4. MinD: Learning A Dual-System World Model for Real-Time Planning and Implicit Risk Analysis

5. Next-Latent Prediction Transformers Learn Compact World Models

6. Accurate and Efficient World Modeling with Masked Latent Transformers

7. Masked Generative Priors Improve World Models Sequence Modelling Capabilities

8. DIAMOND: Diffusion for World Modeling — Visual Details Matter in Atari

9. DreamerV3: Mastering Diverse Domains through World Models (Foundational)

10. Composition of Memory Experts for Diffusion World Models

📊 2. 论文对比总结表

加速维度 × 技术路线 矩阵

💡 3. 可做创新点（3 个新研究方向）

🔬 创新方向 1：Speculative World Model — 草稿-验证式世界模型推理

🔬 创新方向 2：Temporal Redundancy-Aware World Model Compression

🔬 创新方向 3：Unified World Model Acceleration Benchmark (WorldBench-A)

📚 4. 扩展阅读（额外高相关论文）

StateSpaceDiffuser: Bringing Long Context to Diffusion World Models

Epona: Autoregressive Diffusion World Model for Autonomous Driving

An Efficient and Multi-Modal Navigation System with One-Step World Model

GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation

World4RL: Diffusion World Models for Policy Refinement with RL

Q-ARVD: Quantizing Autoregressive Video Diffusion Models

Efficient Agentic Reasoning Through Self-Regulated Simulative Planning

🏷️ 关键概念解释

World Model 加速 vs 通用视频生成加速——关键区别

加速维度 × 技术路线矩阵