📚 CoVSpec → TMC 期刊扩展调研报告

围绕 Device-Edge VLM Speculative Decoding 的全方位文献调研

📅 2026-05-27 🎯 目标期刊:IEEE TMC / TMM / TMC 📊 调研论文:8 篇核心 + 补充 🔬 方法:arXiv 真实检索

📑 目录

  1. 调研概述与 CoVSpec 定位
  2. ① HiViS — 视觉Token隐藏式投机解码
  3. ② SpecVLM — 弹性视觉压缩+在线蒸馏投机解码
  4. ③ DREAM — 交叉注意力+熵自适应多模态投机解码
  5. ④ edgeVLM — 云边协同实时VLM推理
  6. ⑤ SAGE — 熵引导自适应投机树结构
  7. ⑥ Sparrow — 视频LLM的投机解码加速
  8. ⑦ FastVLM — 自投机解码框架
  9. ⑧ MASSV — 多模态适配+自数据蒸馏
  10. 对比分析总表
  11. 可借鉴思路总结
  12. TMC 期刊扩展路线推荐
  13. 参考文献

🔍 调研概述

CoVSpec 是 device-edge VLM speculative decoding 框架,核心创新包括:visual token reduction、margin-based gating、adaptive draft length、parallel branching、decoupled verification-correction,目标降低 VLM 推理延迟、通信量和 API cost。

本次调研覆盖 2023–2026 年 arXiv 论文,聚焦以下方向:VLM speculative decoding、视觉 token 剪枝、边云协同推理、自适应树结构、视频 VLM 加速,共筛选出 8 篇最相关论文

CoVSpec 在文献地图中的定位

维度CoVSpec 的独特位置
VLM SpecDec✓ 在 HiViS/ SpecVLM/ DREAM 等基础上,首次引入 device-edge 协同 维度
Visual Token Reduction✓ 与 SpecVLM 弹性压缩、HiViS token 隐藏互补,CoVSpec 更侧重 通信感知的 reduction
Gating / Adaptive✓ margin-based gating + adaptive draft length 区别于 SAGE 的 entropy 树和 DREAM 的 entropy 特征选择
Edge-Cloud✓ edgeVLM 是唯一直接相关工作,但使用 context transfer 而非 speculative decoding
Verification✓ decoupled verification-correction 是 CoVSpec 独有创新,与标准 tree-verify 形成互补
Top 8 最相关论文

① HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs

arXiv:2509.23928 2025.09 中科院自动化所 Speedup: 3.15×

📄 Introduction 总结

将 LLM 的 speculative decoding 迁移到 VLM 面临两大挑战:(1) 视觉 token 与轻量 drafter 之间存在语义鸿沟——drafter 没有足够容量处理跨模态融合;(2) 长视觉 token 序列(如 LLaVA-Next 超过 2000 tokens)使 drafter 的 prefill 计算开销主导延迟。HiViS 的核心洞察是:VLM 中视觉 token 高度冗余,关键视觉语义已被编码到文本 hidden states 中,drafter 可安全地完全不处理视觉 token

🔬 核心方法

  1. 视觉Token隐藏:利用 target VLM 的 cross-modality self-attention 作为语义融合模块,将视觉信息注入 text embeddings,drafter 仅接收注入后的文本表示
  2. 时间步对齐训练:time-step-aware aligned training,在 drafter 独立 drafting 的每一步施加 step-dependent bias-correction residual,使 drafter 自主传播和更新视觉-文本语义
  3. Tree-based 验证:采用 EAGLE-2 风格的树结构 drafting 和并行验证

🔄 Pipeline

Image → Vision Encoder → Visual Tokens ↓ Target VLM: Self-Attention (语义融合) → Visual-Injected Text Embeddings ↓ Drafter: 仅接收 Text Embeddings (无视觉token) → Step-dependent Bias Correction → Draft Tokens ↓ Target VLM: Parallel Tree Verification (accept/reject) → Final Output

📊 实验结果

模型BenchmarkAcceptance Length ↑Speedup
LLaVA-1.5-7BMMBench显著提升up to 3.15×
LLaVA-1.5-13BLLaVA-Bench显著提升lossless
在多种 VLM 上验证,consistent gains in acceptance length and speedup

💡 对 CoVSpec 的借鉴

关键启示:HiViS 证明 drafter 完全不需要直接处理视觉 token 是可行的。CoVSpec 的 visual token reduction 可以借鉴这一思想——edge 端 drafter 不必上传完整视觉特征,云端的 semantic fusion 可以提供压缩后的视觉-文本表示,从而进一步降低通信量。

② SpecVLM: Fast Speculative Decoding in Vision-Language Models

arXiv:2509.11815 2025.09 AMD / 西安交大 Speedup: 2.5–2.9×

📄 Introduction 总结

SpecVLM 对 VLM speculative decoding 进行了系统性研究。首先构建了 EAGLE-2 风格的强基线 EagleVLM (1.5–2.3× speedup),然后识别出 VLM 场景的双重瓶颈:(1) 视觉 prefill 主导 wall-clock 时间和显存;(2) 现有视觉压缩方法(pruning/pooling/conv/resampler)各有优劣但缺乏自适应选择。提出弹性视觉压缩器和在线 logit 蒸馏来解决这些问题。

🔬 核心方法

  1. EagleVLM 基线:EAGLE-2 的 VLM 改编——单层 transformer decoder drafter + tree-structured drafting
  2. 弹性视觉压缩器:自适应选择 pruning、pooling、convolution、resampler 四类操作,按输入动态平衡 FLOPs/参数量与精度
  3. 在线 Logit 蒸馏:用 on-the-fly teacher logits + penultimate features 训练 drafter(CE + Smooth L1 loss),消除离线蒸馏数据集的存储和预处理开销
  4. 训练时间 Scaling 效应:发现更长的在线训练单调提升 average accepted length

🔄 Pipeline

Image → Elastic Visual Compressor (自适应选择 Prune/Pool/Conv/Resample) → Reduced Visual Tokens ↓ Drafter (单层Decoder): 接收压缩视觉Token + 文本Token → Draft Tokens (Tree-structured) ↓ Online Logit Distillation: Teacher logits + penultimate features → CE + Smooth L1 → Train Drafter ↓ Target VLM: Parallel Tree Verification → Final Output

📊 实验结果

模型BenchmarkSpeedup备注
LLaVA-v1.5-7BLLaVA-Bench-Wild2.5–2.9×lossless
LLaVA-v1.6-7BMMMU2.5–2.9×跨分辨率一致
5 epoch 内达到峰值,跨 task difficulty 稳定

💡 对 CoVSpec 的借鉴

关键启示:(1) 弹性压缩器的自适应选择理念可直接融入 CoVSpec 的 visual token reduction 模块——根据网络状况和任务难度动态选择压缩策略;(2) 在线 logit 蒸馏消除离线数据集需求,对 edge-cloud 场景中的 drafter 持续训练非常有价值;(3) 训练时间 scaling 效应为 CoVSpec 的 drafter 训练策略提供参考。

③ DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding

arXiv:2505.19201 2025.05 NYU / Cerebras Speedup: 3.6×

📄 Introduction 总结

DREAM 指出 VLM 的 SD 需要解决跨模态信息对齐问题——标准 VLM 的视觉编码器和语言模型通过 24 层 self-attention 深度交互,drafter 难以在轻量架构中复现这种融合。提出三个互补创新:交叉注意力特征注入、熵自适应中间层选择、视觉 token 压缩。

🔬 核心方法

  1. Cross-Attention 特征注入:通过交叉注意力将 target model 中间层特征注入 drafter,实现高效知识迁移
  2. 熵自适应中间层选择:训练阶段基于 attention entropy 动态选择 target model 的中间层特征来监督 drafter,提升预测精度和 acceptance length
  3. 视觉 Token 压缩:由 target intermediate features 引导的视觉输入压缩方案,减少 drafter 处理延迟

🔄 Pipeline

Image + Text → Target VLM (forward pass) → Intermediate Features (多层) ↓ Entropy-based Feature Selection → 选择最优中间层特征 ↓ Cross-Attention: Target Features → Drafter Feature Injection ↓ Visual Token Compression (guided by target features) → Compressed Visual Input ↓ Drafter (轻量): Generate Draft Tokens → Target VLM: Verify → Final Output

📊 实验结果

模型SpeedupBenchmark
LLaVA-v1.6-7Bup to 3.6×多模态 benchmark
LLaVA-v1.6-13B显著提升Table/VQA/Chart
Pixtral-12B / Gemma3-12B显著提升跨模型验证
SmolVLM-2B显著提升小模型同样受益

💡 对 CoVSpec 的借鉴

关键启示:(1) Cross-attention 特征注入机制可以增强 CoVSpec 的 drafter 与 cloud VLM 之间的对齐——云端中间特征通过跨注意力传给 edge drafter;(2) 熵自适应选择为 CoVSpec 的 margin-based gating 提供了互补的信息度量维度;(3) 跨 LLaVA/Pixtral/Gemma3/SmolVLM 的泛化验证说明方法具有良好的模型无关性。

④ edgeVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer

arXiv:2508.12638 2025.08 清华大学 最相关边云协同工作

📄 Introduction 总结

edgeVLM 指出云边协同 VLM 推理的核心矛盾:云端大模型 (LVLM) 推理准确但延迟高(网络传输+推理+排队),边缘小模型 (SVLM) 延迟低但精度不足。现有方案(模型分区/动态卸载)忽略了延迟的 LVLM 响应的潜在价值。提出 Context Transfer 范式:将 LVLM 的延迟输出作为历史上下文,引导 SVLM 进行当前帧的实时推理。

🔬 核心方法

  1. Context Transfer 范式:将 delayed LVLM outputs 重用作 SVLM 的 contextual priors,而非实时反馈
  2. Context Replacement Module (CRM):提取 LVLM 高质量响应中的关键文本片段,替换 SVLM 的低质量历史上下文
  3. Visual Focus Module (VFM):利用 LVLM 的 grounding 能力识别语义显著区域,引导 SVLM 的视觉关注(mask 非必要区域,减少视觉 token)
  4. Training-free:两个模块均无需训练,即插即用

🔄 Pipeline

Video Stream → Frame T → Edge SVLM (实时推理) → Keyframe → Cloud LVLM (延迟推理) ↓ LVLM Delayed Output (Frame T-d): ├─ CRM: 提取关键文本 → 替换 SVLM 历史上下文 └─ VFM: 识别 ROI → 特征匹配 → 引导 SVLM 视觉关注 ↓ SVLM + Refined Context + Visual Focus → Real-time Output

📊 实验结果

任务数据集性能提升
Multi-Object Recognition4个公开数据集consistent improvements
Real-time V-L Reasoning自动驾驶相关显著超越 prior cloud-edge 方法

💡 对 CoVSpec 的借鉴

关键启示:(1) Context Transfer 范式与 CoVSpec 的 speculative decoding 可以融合——LVLM 延迟输出不仅可作为历史上下文指导 SVLM,也可以提供 drafter 的先验信息;(2) VFM 的视觉关注引导与 CoVSpec 的 visual token reduction 天然互补——ROI-based 压缩比 uniform reduction 更精准;(3) Training-free 设计使其易于集成到 CoVSpec pipeline。

⑤ SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs

arXiv:2602.00523 2026.01 最新论文 Speedup: 3.36×

📄 Introduction 总结

现有 VLM speculative decoding 方法使用静态树结构,无法适应不同 decoding step 的预测难度变化——高置信度时树结构过于保守,低置信度时探索不足。SAGE 提出基于输出熵动态调整 speculation tree 结构:高置信度(低熵)→ deeper-narrower trees;低置信度(高熵)→ shallower-wider trees。

🔬 核心方法

  1. Entropy-based Confidence Indicator:输出熵作为自然置信度指标,在 decoding steps 间具有强时序相关性
  2. 动态树结构调整:Deeper-narrower trees 最大化高置信度时的推测深度;Shallower-wider trees 在不确定时增加探索多样性
  3. Lossless 解码:不损失输出质量

🔄 Pipeline

Target VLM: Forward Pass → Compute Output Entropy (per step) ↓ Entropy → Adaptive Tree Construction: ├─ Low Entropy → Deeper-Narrower Tree (max speculation depth) └─ High Entropy → Shallower-Wider Tree (diversify exploration) ↓ Drafter: Generate Draft Tokens (per adapted tree) → Target VLM: Verify → Output

📊 实验结果

模型SpeedupAcceptance Length
LLaVA-OneVision-72B3.36×显著提升
Qwen2.5-VL-72B3.18×显著提升

💡 对 CoVSpec 的借鉴

关键启示:(1) SAGE 的 entropy-guided 自适应与 CoVSpec 的 margin-based gating 可以联合设计——entropy 捕捉预测不确定性,margin 捕捉模型置信度,二者互补;(2) 动态树结构调整为 CoVSpec 的 adaptive draft length + parallel branching 提供了系统化的自适应范式;(3) 在大模型 (72B) 上的验证证明了方法的可扩展性。

⑥ Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

arXiv:2602.15318 2026.02 视频LLM加速 Speedup: 2.82× (25K tokens)

📄 Introduction 总结

将 speculative decoding 应用于 Video LLM 面临独特的性能崩塌问题——KV-cache 爆炸和 context window 失配导致 drafter 陷入 attention dilution 和 negative visual gain。Sparrow 观察到 Vid-LLM 中的视觉语义内化现象:关键视觉语义在深层交互中被隐式编码到文本 hidden states 中,使原始视觉输入在深层推理中呈结构性冗余。

🔬 核心方法

  1. Text-Anchored Window Attention:通过 hidden state reuse 将视觉计算完全卸载到 target model,drafter 使用视觉感知的文本锚定窗口注意力
  2. Intermediate-Layer Visual State Bridging:利用中间层视觉状态桥接训练 drafter,过滤低级视觉噪声
  3. Multi-Token Prediction:桥接 training-inference distribution shift

🔄 Pipeline

Video → Visual Encoder → 25K+ Visual Tokens ↓ Target Vid-LLM: 视觉语义内化 (deep-layer) → Visual-Semantic Text Hidden States ↓ Drafter: Text-Anchored Window Attention (用hidden states而非原始visual tokens) + Intermediate Visual State Bridging (训练) + Multi-Token Prediction ↓ Target Vid-LLM: Verify → Output (2.82× speedup)

📊 实验结果

场景Visual TokensSpeedup
长视频理解~25K2.82×
多Video LLM大量有效解决长序列性能退化

💡 对 CoVSpec 的借鉴

关键启示:(1) 视频场景是 CoVSpec 的自然扩展方向——TMC 期刊扩展可加入video VLM speculative decoding;(2) 视觉语义内化现象为 CoVSpec 的 visual token reduction 提供了理论支撑;(3) Multi-token prediction 策略可增强 CoVSpec 的 parallel branching 能力,减少训练-推理分布偏移。

⑦ FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference

arXiv:2510.22641 2025.10 IIT Bombay / IJCNLP-AACL 2025 Speedup: 1.55–1.85×

📄 Introduction 总结

FastVLM 提出基于模仿学习的自投机解码 (SSD) 框架。核心思路:利用轻量 draft model 自回归生成 token,full model 非自回归验证。通过 imitation network 将 full model 深层洞察整合到 draft model,实现效率与精度的平衡。

🔬 核心方法

  1. Imitation-Learning SSD:draft model 通过模仿网络从 full model 深层架构学习
  2. Rejection-driven Refinement:被拒绝的 token 由 full model 修正后用于指导 draft model 优化
  3. Non-autoregressive Verification:full model 并行验证 draft tokens

🔄 Pipeline

Image + Text → Draft Model (轻量, 自回归生成) → Candidate Tokens ↓ Full VLM: Non-autoregressive Parallel Verification ├─ Accepted Tokens → Seamless Continuation └─ Rejected Tokens → Full Model Correction → Imitation Network → Guide Draft Refinement

📊 实验结果

Speedup性能损失发表
1.55–1.85×minimalIJCNLP-AACL 2025

💡 对 CoVSpec 的借鉴

关键启示:(1) Imitation learning + rejection-driven refinement 与 CoVSpec 的 decoupled verification-correction 高度相关——两者都利用了被拒绝 token 的价值;(2) 自投机解码思路(不引入外部 drafter)为 CoVSpec 的边缘端 drafter 设计提供了简化方向。

⑧ MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of VLMs

arXiv:2505.10526 2025.05 Cerebras Accept Length: +30%

📄 Introduction 总结

MASSV 解决 VLM speculative decoding 的两大基础挑战:(1) 可作为高效 drafter 的小语言模型缺少处理视觉输入的架构组件;(2) 小模型的 token 预测与考虑视觉上下文的 VLM target 不匹配。提出两阶段方法:先连接 target VLM 的 vision encoder,再用自蒸馏视觉指令微调对齐。

🔬 核心方法

  1. 多模态适配 (Phase 1):通过轻量可训练 projector 将 target VLM 的 vision encoder 连接到 draft model,使纯文本小模型获得视觉处理能力
  2. 自数据蒸馏 (Phase 2):用 target VLM 生成的响应对 drafter 进行 self-distilled visual instruction tuning,对齐 token 预测分布

🔄 Pipeline

Target VLM Vision Encoder → Trainable Projector → Small Language Model (→ 多模态Drafter) ↓ Phase 1: 连接 Vision Encoder (轻量projector训练) ↓ Phase 2: Target VLM 生成响应 → Self-Distilled Visual Instruction Tuning ↓ Multi-modal Drafter: Generate Draft Tokens → Target VLM: Verify → Output

📊 实验结果

模型族Accept Length 提升Speedup
Qwen2.5-VL 系列+30%up to 1.46×
Gemma3 系列+30%up to 1.46×

💡 对 CoVSpec 的借鉴

关键启示:(1) MASSV 的两阶段训练流程为 CoVSpec 的 edge drafter 设计提供了可复用的训练范式——先用轻量 projector 赋予视觉能力,再用蒸馏对齐分布;(2) "将任意小语言模型转化为 VLM drafter"的架构兼容性使 CoVSpec 可以灵活选择边缘端模型;(3) 自数据蒸馏避免了人工标注成本。
📊 对比分析总表
论文年份核心创新SpeedupVLM SD边云协同Visual ReductionAdaptiveVideo
CoVSpec2026device-edge SD + margin gating + decoupled verify
HiViS2025视觉token隐藏 + 时间步对齐训练3.15×
SpecVLM2025弹性压缩器 + 在线logit蒸馏2.9×
DREAM2025Cross-attn注入 + 熵自适应特征选择3.6×
edgeVLM2025Context Transfer + CRM + VFM
SAGE2026Entropy引导自适应树结构3.36×
Sparrow2026语义内化 + Window Attn + Multi-token2.82×
FastVLM2025Imitation SSD + Rejection Refinement1.85×
MASSV2025多模态适配 + 自数据蒸馏1.46×

✅ = 核心特性 | — = 未涉及 | CoVSpec 是唯一同时覆盖 VLM SD + 边云协同的工作

💡 可借鉴思路总结

🎯 核心洞察:CoVSpec 在文献中的差异化优势

CoVSpec 是目前唯一将 speculative decoding 与 device-edge 协同深度结合的工作。所有现有 VLM SD 工作(HiViS、SpecVLM、DREAM、SAGE、FastVLM、MASSV)都假设单机场景,而 edgeVLM 虽然做边云协同但不使用 speculative decoding。这为 CoVSpec 的 TMC 期刊扩展提供了天然的研究空白

🔧 可直接融入 CoVSpec 的技术

技术来源融入方式
视觉Token隐藏 / 语义融合HiViS云端 target VLM 融合视觉信息后仅传 text embeddings 给 edge drafter,降低通信开销
弹性视觉压缩器SpecVLM按网络带宽/延迟自适应选择压缩策略(prune/pool/conv),通信感知的 visual reduction
Cross-Attention 特征注入DREAM云端中间特征通过 cross-attention 传给 edge drafter,增强对齐
Entropy 引导自适应SAGE + DREAM与 margin-based gating 融合,熵+margin 联合判断 draft length 和 tree 结构
Context Transfer 范式edgeVLM云端延迟输出作为 edge drafter 的历史先验,与 speculative tokens 互补
在线 Logit 蒸馏SpecVLMedge drafter 在线接收 cloud teacher 的实时 logits 进行持续对齐,无需离线数据集
自数据蒸馏MASSV云端 VLM 自生成训练数据蒸馏 edge drafter,经济高效
Multi-Token PredictionSparrow增强 parallel branching 的 token 多样性,减少分布偏移
🛤️ TMC 期刊扩展路线推荐

🚀 推荐路线 1:通信感知的联合优化框架(最稳 ⭐⭐⭐)

将 CoVSpec 扩展为通信感知的端到端优化框架,这是当前文献的明确空白。

核心扩展点

模块扩展方案对标论文
Visual Token Reduction通信带宽感知的弹性压缩 + 语义融合(云端压缩→edge仅收text embeddings)SpecVLM + HiViS
Gating MechanismEntropy + Margin 联合门控:网络条件 + 预测不确定性 + 模型置信度三维自适应SAGE + DREAM
Draft Length通信延迟感知的自适应 draft length(高延迟→长 draft,低延迟→短 draft)CoVSpec 原有 + edgeVLM
Drafter 训练在线 logit 蒸馏 + 自数据蒸馏(云端实时监督 edge drafter 持续优化)SpecVLM + MASSV
Verification云端 feature 注入的 cross-attention verification 增强(提高 accept rate)DREAM

实验设计

期刊适配性

TMC 高度重视通信感知的系统设计,此路线天然匹配 TMC 的 "mobile computing + networking" 定位。

🎯 推荐路线 2:多用户边云协同 VLM 推理系统(新颖 ⭐⭐⭐)

从单用户扩展到多用户 edge server 场景,利用共享 drafter 和批处理优化实现系统级加速。

核心扩展点

模块扩展方案
Multi-User Drafter共享 drafter backbone + per-user lightweight adapters(不同用户 query 的视觉特征不同)
Batch Speculative Decoding多用户 draft tokens 合并批处理→云端并行验证(提升 GPU 利用率)
负载感知调度基于 edge server 负载和网络条件动态分配 draft length 和压缩率
KV-Cache 共享云端 target VLM 的 KV-cache 跨用户共享(相似 query/图像)
通信资源分配多用户场景下的带宽/延迟联合优化(Lyapunov 或 RL-based)

实验设计

📹 推荐路线 3:视频 VLM 的边云协同投机解码(前沿 ⭐⭐)

将 CoVSpec 框架扩展到视频 VLM 场景,利用视频帧间冗余实现更极致的加速。

核心扩展点

模块扩展方案对标
Temporal Visual Reduction利用帧间相似性选择性传输关键帧视觉特征,非关键帧仅传差分Sparrow
视频语义内化云端 Vid-LLM 将视频语义内化到 text hidden states,edge drafter 仅收文本Sparrow + HiViS
Frame-level Gating基于帧信息量和运动幅度控制 draft length 和压缩率CoVSpec 原有
上下文持续优化云端延迟输出持续更新 edge drafter 的视频历史上下文edgeVLM
📚 参考文献
#论文arXiv年份
1HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs2509.239282025
2SpecVLM: Fast Speculative Decoding in Vision-Language Models2509.118152025
3DREAM: Drafting with Refined Target Features for Multimodal SD2505.192012025
4edgeVLM: Cloud-edge Collaborative Real-time VLM via Context Transfer2508.126382025
5SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs2602.005232026
6Sparrow: Speculative Decoding in Video LLMs2602.153182026
7FastVLM: Self-Speculative Decoding for Fast VLM Inference2510.226412025
8MASSV: Multimodal Adaptation and Self-Data Distillation for SD of VLMs2505.105262025