📅 Generated: 2026-05-25 · Scope: 2023–2026 · Focus: 世界模型推理/规划/生成加速
Keywords: Token Caching · Sparse Rollout · Masked Latent · Diffusion Acceleration · Efficient Planning
🔗 URL: arxiv.org/abs/2603.06331
💻 Code: github.com/FofGofx/WorldCache
📋 任务类型: Diffusion World Model (video prediction / embodied simulation)
⚡ 加速对象: Denoising (3.7× end-to-end speedup)
📖 Introduction: 扩散世界模型在统一世界模拟方面展现出巨大潜力,但迭代去噪的高计算成本限制了交互式应用和长时域 rollout。现有特征缓存方法主要针对单模态扩散模型(如图像生成),直接迁移到世界模型时面临两大障碍:(1) Token 异质性——多模态耦合和空间变化导致 token 之间预测难度差异巨大;(2) 非均匀时序动态——少数"困难 token"主导误差累积,均匀跳过策略要么不稳定要么过度保守。
🔬 核心方法:
Observation → [Encoder] → Latent z₀ → ═══ Denoising Loop ═══
│
┌────────── WorldCache ──────────┤
│ 1. Curvature Score per token │
│ 2. Predict easy tokens │
│ 3. Detect chaotic drift │
│ 4. Adaptive recompute only │
│ bottleneck tokens │
└────────────────────────────────┘
↓
Clean ẑ → [Decoder] → Prediction
📊 实验: 在多个扩散世界模型上验证(含 DIAMOND 等),评估长时域 rollout 质量、去噪步数减少比例、端到端延迟。最高 3.7× 加速,保持 98% rollout 质量。
⚠️ 局限: 依赖曲率计算的开销(需与加速收益 trade-off);对极端分布外场景的混沌 token 检测可能失效;目前仅在像素级世界模型上验证。
⭐ 复现价值: High — 代码开源,即插即用无需训练,可在 DreamerV3 / DIAMOND 等框架上直接测试。
💡 启发与延展: (1) 将 WorldCache 的思想扩展到 latent-level world model(如 Dreamer 系列),缓存 RSSM 的 latent state 而非像素 token; (2) 结合 predictor-corrector 方法提升混沌 token 预测精度; (3) 与 speculative decoding 思路结合,用轻量草稿模型预测 easy token。
🔗 URL: arxiv (search) · ICLR 2026 Proceedings
📋 任务类型: Diffusion World Model / Model-Based RL
⚡ 加速对象: Rollout(on-policy imagination 效率)
📖 Introduction: 基于扩散的世界模型在生成保真度上远超传统 RSSM,但在控制任务中面临严重效率挑战:当前方法要么在推理时使用重量级模型,要么依赖高度串行的逐帧想象(每帧需完整去噪),两者都带来高昂计算成本。HI 的核心洞察是:扩散模型天然支持并行生成,可以同时"想象"整个 horizon 而非逐帧生成。
🔬 核心方法:
传统串行 Rollout: z₀→[DM]→z₁→[DM]→z₂→...→zₕ (H 次完整去噪)
↓ 改 ↓
HI 并行 Rollout: z₀ → [DM] → [z₁, z₂, ..., zₕ] (一次去噪生成整个 horizon)
↑
Action sequence 条件注入
📊 实验: 在标准 MBRL benchmark 上对比串行 diffusion rollout,评估 planning 效率、策略性能和 wall-clock 时间。
⚠️ 局限: 并行生成可能牺牲帧间因果一致性;horizon 较长时扩散模型需要生成的内容量线性增长;对 action-conditioned 精细控制要求更高。
⭐ 复现价值: High — ICLR 2026 论文,方法和实验设置清晰。
💡 启发与延展: (1) 结合 WorldCache 在每次 horizon-level 去噪中进一步加速; (2) 引入 temporal attention mask 增强帧间一致性; (3) 可扩展到 latent dynamics model,将"并行想象"从像素空间下沉到 latent 空间。
🔗 URL: arxiv (search)
📋 任务类型: Embodied Planning / Autonomous Driving / Latent World Model
⚡ 加速对象: Denoising(100步→1步,80× speedup)
📖 Introduction: 在真实驾驶数据上训练 RL 策略成本极高且存在安全风险。现有方法使用扩散模型进行 world modeling 需要 100 步去噪推理,对于需要大量 rollout 的 MBRL 来说完全不可行。DreamerAD 通过将扩散采样从 100 步压缩到 1 步实现了 80× 加速,使扩散世界模型首次可以高效用于自动驾驶 RL 训练。
🔬 核心方法:
传统: Encoder→z₀ → Denoise(×100 step) → ẑ → Decoder → Frame [⏱️ 100 步]
↓
DreamerAD: Encoder→z₀ → 1-Step Distilled Denoise → ẑ → Decoder [⏱️ 1 步,80× 加速]
↑
Action Embedding
📊 实验: 自动驾驶场景下的 RL 训练效率和策略性能评估;对比标准扩散世界模型和 RSSM 类方法。
⚠️ 局限: 蒸馏过程中的质量损失需要 trade-off;1-step 模型可能丢失多步细化带来的细节;主要针对驾驶场景,泛化性待验证。
⭐ 复现价值: High — 方法清晰,diffusion distillation 技术成熟。
💡 启发与延展: (1) 探索 2-4 步的渐进式蒸馏方案,在速度和质量间找最优平衡点; (2) 结合 consistency models (Song et al.) 替代蒸馏; (3) 将单步去噪推广到其他 embodied AI 任务(机器人操控、导航)。
🔗 URL: arxiv (search)
📋 任务类型: Diffusion World Model / Embodied Planning
⚡ 加速对象: Planning + Denoising(双系统分工,快速系统规避慢速扩散)
📖 Introduction: 将生成过程整合到特征学习中在技术和概念上都不成熟,且朴素的逐帧视频扩散对于实时规划来说计算效率太低。MinD 的核心洞察是:机器人决策大部分时间是常规操作,不需要每次都运行昂贵的扩散世界模型。通过双系统设计,仅在必要时调用扩散生成,大幅降低平均推理成本。
🔬 核心方法:
Observation → System I (Fast, Implicit) ──→ Action (safe, 90%+ cases)
│
├── Risk Score high? ──→ System II (Slow, Diffusion WM)
│ │
│ Explicit future simulation
│ │
└──────────────────────────────┴──→ Action (risky cases)
📊 实验: 在机器人操控和导航任务上评估规划效率、安全性和任务成功率。
⚠️ 局限: 双系统切换边界的标定需要额外 engineering;System I 的隐式风险感知可能存在漏检;训练复杂度高于单系统方案。
⭐ 复现价值: Medium — 架构优雅但双系统训练复杂。
💡 启发与延展: (1) System I 可替换为多种轻量世界模型(RSSM / 单步扩散 / 线性 dynamics); (2) 多层级切换(不仅是 binary,可以是连续的信噪比加权); (3) 迁移到自动驾驶场景——大部分直行场景用 System I,路口/复杂交互用 System II。
🔗 URL: arxiv (search)
📋 任务类型: Latent World Model / Visual RL
⚡ 加速对象: Latent Dynamics + Token Generation(更紧凑的 latent → 更快生成)
📖 Introduction: Transformer 在序列建模中表现出色,但标准 next-token prediction 目标迫使模型在输出空间上进行冗余建模,不利于形成紧凑的内部世界表征。NextLat 将预测目标从 token 空间移到了 latent 空间,在不改变推理架构的情况下让模型形成紧凑的内部世界模型。
🔬 核心方法:
标准 Next-Token: [t₁, t₂, ..., tₙ] → predict tₙ₊₁ (raw token, large space)
↓
NextLat: [t₁, t₂, ..., tₙ] → predict zₙ₊₁ (compact latent, small space)
↓
zₙ₊₁ → Decoder → tₙ₊₁
📊 实验: 验证 latent 紧凑性(可视化)、生成质量、下游 RL 性能、推理速度对比。
⚠️ 局限: Decoder 仍是瓶颈;latent 过小时信息损失不可逆;目前验证规模有限。
⭐ 复现价值: High — 方法极简,仅在 loss 层面修改。
💡 启发与延展: (1) 将 NextLat 与 DreamerV3 的 RSSM 结合——在 latent 空间做 next-latent prediction; (2) 分层 latent(多尺度 compactness)实现可变推理精度; (3) 结合 token pruning 进一步减少 Decoder 的生成 token 数量。
🔗 URL: arxiv (search)
📋 任务类型: Video Prediction / Model-Based RL / Game World Model
⚡ 加速对象: Token Generation(MaskGIT 式并行解码替代自回归)
📖 Introduction: Dreamer 类世界模型在多个环境域取得了显著性能,但其 latent space 的压缩特性会导致关键信息丢失,影响智能体表现。同时,自回归 token 生成十分低效。本文提出 Masked Latent Transformer:在 latent 空间中使用 MaskGIT 风格的并行解码,既提升了世界模型的精度(减少信息丢失),又通过并行生成实现了加速。
🔬 核心方法:
AR (Dreamer): z₁→z₂→z₃→...zₙ (串行 N 步)
↓
Masked Latent TF: [M,M,z₃,M,...] → predict masked tokens (并行)
[z₁,M,z₃,M,...] → predict remaining (迭代 K 步, K ≪ N)
📊 实验: 在 Atari、DMControl 等标准 benchmark 上与 DreamerV3 对比,评估 token 生成效率和下游策略性能。
⚠️ 局限: MaskGIT 迭代仍需要多步(虽然远少于自回归);latent token design 对性能影响大;对高度随机的环境可能不够稳定。
⭐ 复现价值: High — MaskGIT 技术在图像生成中已成熟,迁移到世界模型路径清晰。
💡 启发与延展: (1) 进一步减少 MaskGIT 迭代步数(1-2 步),类似 DreamerAD 的蒸馏思路; (2) 在 latent 空间引入 adaptive masking schedule(简单帧少 mask 多 unmask,复杂帧多 mask 少 unmask); (3) 与 WorldCache 的 token-level caching 结合——mask 掉的 token 可以直接 cache 复用。
🔗 URL: arxiv (search)
📋 任务类型: Model-Based RL / Sequence Modeling
⚡ 加速对象: Sequence Modeling(通过预训练先验减少训练和推理的 token 需求)
📖 Introduction: 世界模型的序列建模能力是 MBRL 的核心瓶颈。本文发现:通过在大规模数据上预训练 masked generative model(类似 MAE),可以获得强大的序列先验,将其注入世界模型后可以显著提升建模效率——即用更少的 token 达成同等或更好的序列预测性能。
🔬 核心方法:
Stage 1: 大规模视频 → Masked AE Pretrain → 通用序列先验
Stage 2: 先验注入 → World Model Sequence Module → 更高效的序列建模
(更少 token = 更快生成)
📊 实验: 多个 MBRL benchmark,对比有无 pretrained prior 的序列预测精度和 token 效率。
⚠️ 局限: 需要大规模预训练数据(与 MBRL 的 sample-efficient 理念有矛盾);先验迁移的领域 gap;推理加速是间接的。
⭐ 复现价值: Medium — 预训练成本高,但先验注入思路有价值。
💡 启发与延展: (1) 使用已有的 foundation video model(如 Sora 的 encoder)作为现成先验,省去预训练成本; (2) 在 latent 空间而非 token 空间做先验迁移; (3) 结合 adapter-based finetuning 做领域适配。
🔗 URL: arxiv (search)
💻 Code: github.com/eloialonso/diamond
📋 任务类型: Diffusion World Model / Model-Based RL / Atari
⚡ 加速对象: (提供加速的 baseline 和动机)——高保真但极慢,催生后续加速工作
📖 Introduction: 扩散模型已在图像生成中取代了基于离散 latent 的方法。DIAMOND 首次将扩散模型系统性地引入 MBRL 作为世界模型,证明扩散世界模型在 Atari 上可达到与 DreamerV3 相当甚至更好的性能,且具有更高的视觉保真度。但其推理速度慢(需要完整扩散去噪),成为后续加速研究的直接动机。
🔬 核心方法:
oₜ → Encoder → zₜ → Diffusion (×N steps) → zₜ₊₁ → Decoder → ôₜ₊₁
↑ Action aₜ (高保真,但慢)
📊 实验: Atari 100k benchmark,与 DreamerV3、STORM 等 MBRL 方法对比,评估 human-normalized score 和视觉质量。
⚠️ 局限: 推理速度是最大瓶颈(每次 rollout 需要完整扩散去噪);planning 效率远低于 RSSM;不适用于实时交互场景。
⭐ 复现价值: High — 代码开源,NeurIPS Spotlight,是加速研究的 baseline。
💡 启发与延展: DIAMOND 本身是加速研究的"靶子"——WorldCache(缓存去噪)、DreamerAD(蒸馏到 1 步)、Horizon Imagination(并行 rollout)等后续工作都是直接受 DIAMOND 的推理瓶颈启发的。作为 baseline 必须阅读。
🔗 URL: arxiv.org/abs/2301.04104
💻 Code: danijar.com/dreamerv3
📋 任务类型: Model-Based RL / Latent World Model / Game
⚡ 加速对象: (加速的载体)——DreamerV3 是目前最广泛使用的世界模型框架,几乎所有 latent 世界模型加速工作都在 Dreamer 框架上进行
📖 Introduction: DreamerV3 是 Dreamer 系列的集大成者,通过世界模型学习环境 dynamics 并在 latent 空间中通过"想象"改进行为。其核心贡献在于通过符号化、平衡和变换等鲁棒性技术实现了跨领域的稳定学习,是首个不依赖人类数据或课程学习从零开始收集 Minecraft 钻石的算法。
🔬 核心方法:
oₜ → Encoder → xₜ ──→ RSSM ──→ zₜ, hₜ ──→ Dynamics Predictor → ẑₜ₊₁
│ │ │
│ Action aₜ Reward/Continue Predictor
│ │
└──────────────────────────────────┘
Latent Imagination (Planning in z-space)
📊 实验: 150+ 任务涵盖 Atari、DMControl、Minecraft、Benchmark 等,单一配置超越专用方法。
⚠️ 局限: 自回归 latent rollout 是推理瓶颈(串行逐帧预测);RSSM capacity 有限(相对于 diffusion WM);latent 压缩可能导致信息丢失。
⭐ 复现价值: High — 必须阅读的 baseline,几乎所有世界模型加速工作都基于此。
💡 启发与延展: DreamerV3 的 RSSM 是加速工作的核心目标——如何更快地进行 latent imagination?(参见 Masked Latent Transformers、NextLat 等)。其自回归 rollout 机制是 Horizon Imagination 要解决的核心问题。
🔗 URL: arxiv (search)
📋 任务类型: Diffusion World Model / Video Prediction
⚡ 加速对象: Memory Access(通过 expert 组合替代大模型的全量计算)
📖 Introduction: Transformer 在扩散世界模型中保持局部细节但受限于二次注意力复杂度;RNN/SSM 更高效但以压缩历史为代价降低保真度。本文提出将 future-past consistency 从单一架构中解耦,利用一组 memory expert 的组合来实现高效的世界模型。
🔬 核心方法:
Observation → Router → Expert₁ (local detail)
→ Expert₂ (long-range context)
→ Expert₃ (motion pattern)
→ ⊗ Composition → Future Prediction
(稀疏激活,仅需要的 expert 参与计算)
📊 实验: 扩散世界模型 benchmark,评估计算效率、存储效率和生成质量。
⚠️ 局限: Router 训练稳定性;expert 数量需要手动设计;稀疏激活的硬件效率依赖专门优化。
⭐ 复现价值: Medium — MoE 技术成熟但世界模型场景下的实现细节复杂。
💡 启发与延展: (1) 将 MoME 与 WorldCache 结合——cached token 也可以作为 implicit expert; (2) expert 可以对应不同的物理法则(重力 expert、碰撞 expert 等),实现更可解释的分解; (3) 动态 expert 增长(lifelong world model learning)。
| 论文 | 年份 | 会议 | 加速对象 | 技术路线 | 加速倍数 | 复现价值 |
|---|---|---|---|---|---|---|
| WorldCache | 2026 | arXiv | Denoising | 异构 Token Caching | 3.7× | High |
| Horizon Imagination | 2026 | ICLR | Rollout | 并行 Horizon 生成 | ~H× (H=horizon) | High |
| DreamerAD | 2026 | arXiv | Denoising | 1-Step 蒸馏 | 80× | High |
| MinD | 2025 | arXiv | Planning | 双系统自适应 | 按风险比例 | Medium |
| NextLat | 2025 | arXiv | Token Generation | Next-Latent Prediction | 间接 | High |
| Masked Latent TF | 2025 | arXiv | Token Generation | MaskGIT 并行解码 | ~N/K× | High |
| Masked Gen Priors | 2024 | arXiv | Sequence Modeling | 预训练先验注入 | 间接 | Medium |
| DIAMOND | 2024 | NeurIPS | (Baseline) | 扩散世界模型 | — | High |
| DreamerV3 | 2023 | arXiv | (Baseline) | RSSM + Imagination | — | High |
| MoME | 2026 | arXiv | Memory Access | Expert 组合 | 稀疏激活比 | Medium |
| 加速维度 \ 技术 | Caching | Distillation | Parallel | Adaptive | Compact | MoE |
|---|---|---|---|---|---|---|
| Denoising | WorldCache | DreamerAD | — | — | — | — |
| Rollout | — | — | Horizon Imagination | MinD | — | — |
| Token Generation | — | — | Masked Latent TF | — | NextLat | — |
| Planning | — | — | — | MinD | — | — |
| Memory | WorldCache | — | — | — | — | MoME |
| Sequence Model | — | — | — | — | Masked Gen Priors | — |
核心想法: 将 LLM 领域的 Speculative Decoding 思想系统性地引入世界模型。用轻量"草稿世界模型"(如线性 dynamics / 单步扩散 / RSSM)快速生成候选 trajectory,再用高质量"验证世界模型"(完整扩散)进行 verification 和 refinement。
为什么现在做:
与现有工作的区别: 现有工作(DreamerAD, WorldCache)都是"加速单个模型",而 speculative world model 是"用便宜模型 + 贵模型协同加速"。
可行性: 高。DreamerV3 RSSM 作为 draft,DIAMOND 作为 verifier,直接在 Atari/DMControl 上实验验证。
核心想法: 世界模型在不同时间尺度的信息冗余度不同——相邻帧高度冗余,远距帧信息独立。设计时间感知的自适应计算预算分配:近邻帧用 1-step 或 cache,远距帧、关键帧(场景切换)才用全量扩散。
为什么现在做:
与现有工作的区别: WorldCache 只做 token-level caching,不考虑 temporal scale;MinD 只区分 safe/risky。本方案引入"时间冗余度"这一新维度,多层级自适应调度。
可行性: 高。可在 WorldCache 框架上扩展,加入 temporal keyframe detector 模块。
核心想法: 目前世界模型加速工作各自为政,使用不同的 baseline、不同的环境和不同的加速度量标准。建立一个统一的 benchmark:(1) 涵盖 DreamerV3、DIAMOND、IRIS 等主流 world model 架构;(2) 覆盖 denoising、rollout、planning、token generation 四大加速维度;(3) 使用统一的 quality-vs-speed Pareto frontier 评估指标。
为什么现在做:
与现有工作的区别: 不做新方法,做标准化的评估体系——但一个有影响力的 benchmark 本身就是重要贡献。
可行性: 中等。需要统一多个框架的 API,但核心评估 protocol 设计清晰。
将 State Space Model (Mamba) 引入扩散世界模型以支持长上下文,解决长序列下 Transformer 注意力复杂度爆炸的问题。
加速维度: Long-context attention → 线性复杂度替代二次复杂度。
自回归扩散世界模型,实现局部时空分布建模。其"分块自回归"设计避免了全帧序列的去噪,是一种隐式的加速策略。
将世界模型应用于导航任务,使用单步预测代替多步 rollout,验证了 1-step world model 在特定任务上的有效性。
使用 Feed-Forward 3D Gaussian Splatting 作为世界模型——天然避免迭代去噪,一步前馈即可生成未来场景。
扩散世界模型用于端到端策略优化(非 planning),预训练多任务扩散动力学后直接做 policy refinement。
对自回归视频扩散模型进行量化以加速推理,适用于基于离散 token 的世界模型(如 IRIS/TWM 系列)。
三系统架构(System I 执行 + System II 模拟推理 + System III 自调节规划深度),自调节何时用世界模型进行深度规划。
| 维度 | 通用视频生成加速 | 世界模型加速 |
|---|---|---|
| 核心目标 | 生成高质量视频 | 准确预测环境 dynamics 以支持决策 |
| 输入 | 文本/图像 prompt | 当前观测 + 动作序列 |
| 加速瓶颈 | 去噪步数、模型大小 | 去噪步数 + 自回归 rollout + planning 搜索 + memory 开销 |
| 质量要求 | 视觉质量为主 | 物理一致性 + 因果正确性 + 视觉质量 |
| 交互性 | 通常非交互 | 需支持实时交互(机器人、自动驾驶) |
| 关键挑战 | 单帧生成效率 | 长时域 rollout 的误差累积 + 多步并行效率 |