CoVSpec → TMC 扩展调研报告

📑 目录

调研概述与 CoVSpec 定位
① HiViS — 视觉Token隐藏式投机解码
② SpecVLM — 弹性视觉压缩+在线蒸馏投机解码
③ DREAM — 交叉注意力+熵自适应多模态投机解码
④ edgeVLM — 云边协同实时VLM推理
⑤ SAGE — 熵引导自适应投机树结构
⑥ Sparrow — 视频LLM的投机解码加速
⑦ FastVLM — 自投机解码框架
⑧ MASSV — 多模态适配+自数据蒸馏
对比分析总表
可借鉴思路总结
TMC 期刊扩展路线推荐
参考文献

🔍 调研概述

CoVSpec 是 device-edge VLM speculative decoding 框架，核心创新包括：visual token reduction、margin-based gating、adaptive draft length、parallel branching、decoupled verification-correction，目标降低 VLM 推理延迟、通信量和 API cost。

本次调研覆盖 2023–2026 年 arXiv 论文，聚焦以下方向：VLM speculative decoding、视觉 token 剪枝、边云协同推理、自适应树结构、视频 VLM 加速，共筛选出 8 篇最相关论文。

CoVSpec 在文献地图中的定位

维度	CoVSpec 的独特位置
VLM SpecDec	✓ 在 HiViS/ SpecVLM/ DREAM 等基础上，首次引入 device-edge 协同维度
Visual Token Reduction	✓ 与 SpecVLM 弹性压缩、HiViS token 隐藏互补，CoVSpec 更侧重通信感知的 reduction
Gating / Adaptive	✓ margin-based gating + adaptive draft length 区别于 SAGE 的 entropy 树和 DREAM 的 entropy 特征选择
Edge-Cloud	✓ edgeVLM 是唯一直接相关工作，但使用 context transfer 而非 speculative decoding
Verification	✓ decoupled verification-correction 是 CoVSpec 独有创新，与标准 tree-verify 形成互补

Top 8 最相关论文

① HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs

arXiv:2509.23928 2025.09 中科院自动化所 Speedup: 3.15×

📄 Introduction 总结

将 LLM 的 speculative decoding 迁移到 VLM 面临两大挑战：(1) 视觉 token 与轻量 drafter 之间存在语义鸿沟——drafter 没有足够容量处理跨模态融合；(2) 长视觉 token 序列（如 LLaVA-Next 超过 2000 tokens）使 drafter 的 prefill 计算开销主导延迟。HiViS 的核心洞察是：VLM 中视觉 token 高度冗余，关键视觉语义已被编码到文本 hidden states 中，drafter 可安全地完全不处理视觉 token。

🔬 核心方法

视觉Token隐藏：利用 target VLM 的 cross-modality self-attention 作为语义融合模块，将视觉信息注入 text embeddings，drafter 仅接收注入后的文本表示
时间步对齐训练：time-step-aware aligned training，在 drafter 独立 drafting 的每一步施加 step-dependent bias-correction residual，使 drafter 自主传播和更新视觉-文本语义
Tree-based 验证：采用 EAGLE-2 风格的树结构 drafting 和并行验证

🔄 Pipeline

Image → Vision Encoder → Visual Tokens ↓ Target VLM: Self-Attention (语义融合) → Visual-Injected Text Embeddings ↓ Drafter: 仅接收 Text Embeddings (无视觉token) → Step-dependent Bias Correction → Draft Tokens ↓ Target VLM: Parallel Tree Verification (accept/reject) → Final Output

📊 实验结果

模型	Benchmark	Acceptance Length ↑	Speedup
LLaVA-1.5-7B	MMBench	显著提升	up to 3.15×
LLaVA-1.5-13B	LLaVA-Bench	显著提升	lossless
在多种 VLM 上验证，consistent gains in acceptance length and speedup

💡 对 CoVSpec 的借鉴

    关键启示：HiViS 证明 drafter 完全不需要直接处理视觉 token 是可行的。CoVSpec 的 visual token reduction 可以借鉴这一思想——edge 端 drafter 不必上传完整视觉特征，云端的 semantic fusion 可以提供压缩后的视觉-文本表示，从而进一步降低通信量。
  

② SpecVLM: Fast Speculative Decoding in Vision-Language Models

arXiv:2509.11815 2025.09 AMD / 西安交大 Speedup: 2.5–2.9×

📄 Introduction 总结

SpecVLM 对 VLM speculative decoding 进行了系统性研究。首先构建了 EAGLE-2 风格的强基线 EagleVLM (1.5–2.3× speedup)，然后识别出 VLM 场景的双重瓶颈：(1) 视觉 prefill 主导 wall-clock 时间和显存；(2) 现有视觉压缩方法（pruning/pooling/conv/resampler）各有优劣但缺乏自适应选择。提出弹性视觉压缩器和在线 logit 蒸馏来解决这些问题。

🔬 核心方法

EagleVLM 基线：EAGLE-2 的 VLM 改编——单层 transformer decoder drafter + tree-structured drafting
弹性视觉压缩器：自适应选择 pruning、pooling、convolution、resampler 四类操作，按输入动态平衡 FLOPs/参数量与精度
在线 Logit 蒸馏：用 on-the-fly teacher logits + penultimate features 训练 drafter（CE + Smooth L1 loss），消除离线蒸馏数据集的存储和预处理开销
训练时间 Scaling 效应：发现更长的在线训练单调提升 average accepted length

🔄 Pipeline

Image → Elastic Visual Compressor (自适应选择 Prune/Pool/Conv/Resample) → Reduced Visual Tokens ↓ Drafter (单层Decoder): 接收压缩视觉Token + 文本Token → Draft Tokens (Tree-structured) ↓ Online Logit Distillation: Teacher logits + penultimate features → CE + Smooth L1 → Train Drafter ↓ Target VLM: Parallel Tree Verification → Final Output

📊 实验结果

模型	Benchmark	Speedup	备注
LLaVA-v1.5-7B	LLaVA-Bench-Wild	2.5–2.9×	lossless
LLaVA-v1.6-7B	MMMU	2.5–2.9×	跨分辨率一致
5 epoch 内达到峰值，跨 task difficulty 稳定

💡 对 CoVSpec 的借鉴

    关键启示：(1) 弹性压缩器的自适应选择理念可直接融入 CoVSpec 的 visual token reduction 模块——根据网络状况和任务难度动态选择压缩策略；(2) 在线 logit 蒸馏消除离线数据集需求，对 edge-cloud 场景中的 drafter 持续训练非常有价值；(3) 训练时间 scaling 效应为 CoVSpec 的 drafter 训练策略提供参考。
  

③ DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding

arXiv:2505.19201 2025.05 NYU / Cerebras Speedup: 3.6×

📄 Introduction 总结

DREAM 指出 VLM 的 SD 需要解决跨模态信息对齐问题——标准 VLM 的视觉编码器和语言模型通过 24 层 self-attention 深度交互，drafter 难以在轻量架构中复现这种融合。提出三个互补创新：交叉注意力特征注入、熵自适应中间层选择、视觉 token 压缩。

🔬 核心方法

Cross-Attention 特征注入：通过交叉注意力将 target model 中间层特征注入 drafter，实现高效知识迁移
熵自适应中间层选择：训练阶段基于 attention entropy 动态选择 target model 的中间层特征来监督 drafter，提升预测精度和 acceptance length
视觉 Token 压缩：由 target intermediate features 引导的视觉输入压缩方案，减少 drafter 处理延迟

🔄 Pipeline

Image + Text → Target VLM (forward pass) → Intermediate Features (多层) ↓ Entropy-based Feature Selection → 选择最优中间层特征 ↓ Cross-Attention: Target Features → Drafter Feature Injection ↓ Visual Token Compression (guided by target features) → Compressed Visual Input ↓ Drafter (轻量): Generate Draft Tokens → Target VLM: Verify → Final Output

📊 实验结果

模型	Speedup	Benchmark
LLaVA-v1.6-7B	up to 3.6×	多模态 benchmark
LLaVA-v1.6-13B	显著提升	Table/VQA/Chart
Pixtral-12B / Gemma3-12B	显著提升	跨模型验证
SmolVLM-2B	显著提升	小模型同样受益

💡 对 CoVSpec 的借鉴

    关键启示：(1) Cross-attention 特征注入机制可以增强 CoVSpec 的 drafter 与 cloud VLM 之间的对齐——云端中间特征通过跨注意力传给 edge drafter；(2) 熵自适应选择为 CoVSpec 的 margin-based gating 提供了互补的信息度量维度；(3) 跨 LLaVA/Pixtral/Gemma3/SmolVLM 的泛化验证说明方法具有良好的模型无关性。
  

④ edgeVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer

arXiv:2508.12638 2025.08 清华大学最相关边云协同工作

📄 Introduction 总结

edgeVLM 指出云边协同 VLM 推理的核心矛盾：云端大模型 (LVLM) 推理准确但延迟高（网络传输+推理+排队），边缘小模型 (SVLM) 延迟低但精度不足。现有方案（模型分区/动态卸载）忽略了延迟的 LVLM 响应的潜在价值。提出 Context Transfer 范式：将 LVLM 的延迟输出作为历史上下文，引导 SVLM 进行当前帧的实时推理。

🔬 核心方法

Context Transfer 范式：将 delayed LVLM outputs 重用作 SVLM 的 contextual priors，而非实时反馈
Context Replacement Module (CRM)：提取 LVLM 高质量响应中的关键文本片段，替换 SVLM 的低质量历史上下文
Visual Focus Module (VFM)：利用 LVLM 的 grounding 能力识别语义显著区域，引导 SVLM 的视觉关注（mask 非必要区域，减少视觉 token）
Training-free：两个模块均无需训练，即插即用

🔄 Pipeline

Video Stream → Frame T → Edge SVLM (实时推理) → Keyframe → Cloud LVLM (延迟推理) ↓ LVLM Delayed Output (Frame T-d): ├─ CRM: 提取关键文本 → 替换 SVLM 历史上下文 └─ VFM: 识别 ROI → 特征匹配 → 引导 SVLM 视觉关注 ↓ SVLM + Refined Context + Visual Focus → Real-time Output

📊 实验结果

任务	数据集	性能提升
Multi-Object Recognition	4个公开数据集	consistent improvements
Real-time V-L Reasoning	自动驾驶相关	显著超越 prior cloud-edge 方法

💡 对 CoVSpec 的借鉴

    关键启示：(1) Context Transfer 范式与 CoVSpec 的 speculative decoding 可以融合——LVLM 延迟输出不仅可作为历史上下文指导 SVLM，也可以提供 drafter 的先验信息；(2) VFM 的视觉关注引导与 CoVSpec 的 visual token reduction 天然互补——ROI-based 压缩比 uniform reduction 更精准；(3) Training-free 设计使其易于集成到 CoVSpec pipeline。
  

⑤ SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs

arXiv:2602.00523 2026.01 最新论文 Speedup: 3.36×

📄 Introduction 总结

现有 VLM speculative decoding 方法使用静态树结构，无法适应不同 decoding step 的预测难度变化——高置信度时树结构过于保守，低置信度时探索不足。SAGE 提出基于输出熵动态调整 speculation tree 结构：高置信度（低熵）→ deeper-narrower trees；低置信度（高熵）→ shallower-wider trees。

🔬 核心方法

Entropy-based Confidence Indicator：输出熵作为自然置信度指标，在 decoding steps 间具有强时序相关性
动态树结构调整：Deeper-narrower trees 最大化高置信度时的推测深度；Shallower-wider trees 在不确定时增加探索多样性
Lossless 解码：不损失输出质量

🔄 Pipeline

Target VLM: Forward Pass → Compute Output Entropy (per step) ↓ Entropy → Adaptive Tree Construction: ├─ Low Entropy → Deeper-Narrower Tree (max speculation depth) └─ High Entropy → Shallower-Wider Tree (diversify exploration) ↓ Drafter: Generate Draft Tokens (per adapted tree) → Target VLM: Verify → Output

📊 实验结果

模型	Speedup	Acceptance Length
LLaVA-OneVision-72B	3.36×	显著提升
Qwen2.5-VL-72B	3.18×	显著提升

💡 对 CoVSpec 的借鉴

    关键启示：(1) SAGE 的 entropy-guided 自适应与 CoVSpec 的 margin-based gating 可以联合设计——entropy 捕捉预测不确定性，margin 捕捉模型置信度，二者互补；(2) 动态树结构调整为 CoVSpec 的 adaptive draft length + parallel branching 提供了系统化的自适应范式；(3) 在大模型 (72B) 上的验证证明了方法的可扩展性。
  

⑥ Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

arXiv:2602.15318 2026.02 视频LLM加速 Speedup: 2.82× (25K tokens)

📄 Introduction 总结

将 speculative decoding 应用于 Video LLM 面临独特的性能崩塌问题——KV-cache 爆炸和 context window 失配导致 drafter 陷入 attention dilution 和 negative visual gain。Sparrow 观察到 Vid-LLM 中的视觉语义内化现象：关键视觉语义在深层交互中被隐式编码到文本 hidden states 中，使原始视觉输入在深层推理中呈结构性冗余。

🔬 核心方法

Text-Anchored Window Attention：通过 hidden state reuse 将视觉计算完全卸载到 target model，drafter 使用视觉感知的文本锚定窗口注意力
Intermediate-Layer Visual State Bridging：利用中间层视觉状态桥接训练 drafter，过滤低级视觉噪声
Multi-Token Prediction：桥接 training-inference distribution shift

🔄 Pipeline

Video → Visual Encoder → 25K+ Visual Tokens ↓ Target Vid-LLM: 视觉语义内化 (deep-layer) → Visual-Semantic Text Hidden States ↓ Drafter: Text-Anchored Window Attention (用hidden states而非原始visual tokens) + Intermediate Visual State Bridging (训练) + Multi-Token Prediction ↓ Target Vid-LLM: Verify → Output (2.82× speedup)

📊 实验结果

场景	Visual Tokens	Speedup
长视频理解	~25K	2.82×
多Video LLM	大量	有效解决长序列性能退化

💡 对 CoVSpec 的借鉴

    关键启示：(1) 视频场景是 CoVSpec 的自然扩展方向——TMC 期刊扩展可加入video VLM speculative decoding；(2) 视觉语义内化现象为 CoVSpec 的 visual token reduction 提供了理论支撑；(3) Multi-token prediction 策略可增强 CoVSpec 的 parallel branching 能力，减少训练-推理分布偏移。
  

⑦ FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference

arXiv:2510.22641 2025.10 IIT Bombay / IJCNLP-AACL 2025 Speedup: 1.55–1.85×

📄 Introduction 总结

FastVLM 提出基于模仿学习的自投机解码 (SSD) 框架。核心思路：利用轻量 draft model 自回归生成 token，full model 非自回归验证。通过 imitation network 将 full model 深层洞察整合到 draft model，实现效率与精度的平衡。

🔬 核心方法

Imitation-Learning SSD：draft model 通过模仿网络从 full model 深层架构学习
Rejection-driven Refinement：被拒绝的 token 由 full model 修正后用于指导 draft model 优化
Non-autoregressive Verification：full model 并行验证 draft tokens

🔄 Pipeline

Image + Text → Draft Model (轻量, 自回归生成) → Candidate Tokens ↓ Full VLM: Non-autoregressive Parallel Verification ├─ Accepted Tokens → Seamless Continuation └─ Rejected Tokens → Full Model Correction → Imitation Network → Guide Draft Refinement

📊 实验结果

Speedup	性能损失	发表
1.55–1.85×	minimal	IJCNLP-AACL 2025

💡 对 CoVSpec 的借鉴

    关键启示：(1) Imitation learning + rejection-driven refinement 与 CoVSpec 的 decoupled verification-correction 高度相关——两者都利用了被拒绝 token 的价值；(2) 自投机解码思路（不引入外部 drafter）为 CoVSpec 的边缘端 drafter 设计提供了简化方向。
  

⑧ MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of VLMs

arXiv:2505.10526 2025.05 Cerebras Accept Length: +30%

📄 Introduction 总结

MASSV 解决 VLM speculative decoding 的两大基础挑战：(1) 可作为高效 drafter 的小语言模型缺少处理视觉输入的架构组件；(2) 小模型的 token 预测与考虑视觉上下文的 VLM target 不匹配。提出两阶段方法：先连接 target VLM 的 vision encoder，再用自蒸馏视觉指令微调对齐。

🔬 核心方法

多模态适配 (Phase 1)：通过轻量可训练 projector 将 target VLM 的 vision encoder 连接到 draft model，使纯文本小模型获得视觉处理能力
自数据蒸馏 (Phase 2)：用 target VLM 生成的响应对 drafter 进行 self-distilled visual instruction tuning，对齐 token 预测分布

🔄 Pipeline

Target VLM Vision Encoder → Trainable Projector → Small Language Model (→ 多模态Drafter) ↓ Phase 1: 连接 Vision Encoder (轻量projector训练) ↓ Phase 2: Target VLM 生成响应 → Self-Distilled Visual Instruction Tuning ↓ Multi-modal Drafter: Generate Draft Tokens → Target VLM: Verify → Output

📊 实验结果

模型族	Accept Length 提升	Speedup
Qwen2.5-VL 系列	+30%	up to 1.46×
Gemma3 系列	+30%	up to 1.46×

💡 对 CoVSpec 的借鉴

    关键启示：(1) MASSV 的两阶段训练流程为 CoVSpec 的 edge drafter 设计提供了可复用的训练范式——先用轻量 projector 赋予视觉能力，再用蒸馏对齐分布；(2) "将任意小语言模型转化为 VLM drafter"的架构兼容性使 CoVSpec 可以灵活选择边缘端模型；(3) 自数据蒸馏避免了人工标注成本。
  

📊 对比分析总表

论文	年份	核心创新	Speedup	VLM SD	边云协同	Visual Reduction	Adaptive	Video
CoVSpec	2026	device-edge SD + margin gating + decoupled verify	—	✅	✅	✅	✅	—
HiViS	2025	视觉token隐藏 + 时间步对齐训练	3.15×	✅	—	✅	—	—
SpecVLM	2025	弹性压缩器 + 在线logit蒸馏	2.9×	✅	—	✅	✅	—
DREAM	2025	Cross-attn注入 + 熵自适应特征选择	3.6×	✅	—	✅	✅	—
edgeVLM	2025	Context Transfer + CRM + VFM	—	—	✅	✅	—	—
SAGE	2026	Entropy引导自适应树结构	3.36×	✅	—	—	✅	—
Sparrow	2026	语义内化 + Window Attn + Multi-token	2.82×	✅	—	✅	—	✅
FastVLM	2025	Imitation SSD + Rejection Refinement	1.85×	✅	—	—	—	—
MASSV	2025	多模态适配 + 自数据蒸馏	1.46×	✅	—	—	—	—

✅ = 核心特性 | — = 未涉及 | CoVSpec 是唯一同时覆盖 VLM SD + 边云协同的工作

💡 可借鉴思路总结

🎯 核心洞察：CoVSpec 在文献中的差异化优势

CoVSpec 是目前唯一将 speculative decoding 与 device-edge 协同深度结合的工作。所有现有 VLM SD 工作（HiViS、SpecVLM、DREAM、SAGE、FastVLM、MASSV）都假设单机场景，而 edgeVLM 虽然做边云协同但不使用 speculative decoding。这为 CoVSpec 的 TMC 期刊扩展提供了天然的研究空白。

🔧 可直接融入 CoVSpec 的技术

技术	来源	融入方式
视觉Token隐藏 / 语义融合	HiViS	云端 target VLM 融合视觉信息后仅传 text embeddings 给 edge drafter，降低通信开销
弹性视觉压缩器	SpecVLM	按网络带宽/延迟自适应选择压缩策略（prune/pool/conv），通信感知的 visual reduction
Cross-Attention 特征注入	DREAM	云端中间特征通过 cross-attention 传给 edge drafter，增强对齐
Entropy 引导自适应	SAGE + DREAM	与 margin-based gating 融合，熵+margin 联合判断 draft length 和 tree 结构
Context Transfer 范式	edgeVLM	云端延迟输出作为 edge drafter 的历史先验，与 speculative tokens 互补
在线 Logit 蒸馏	SpecVLM	edge drafter 在线接收 cloud teacher 的实时 logits 进行持续对齐，无需离线数据集
自数据蒸馏	MASSV	云端 VLM 自生成训练数据蒸馏 edge drafter，经济高效
Multi-Token Prediction	Sparrow	增强 parallel branching 的 token 多样性，减少分布偏移

🛤️ TMC 期刊扩展路线推荐

🚀 推荐路线 1：通信感知的联合优化框架（最稳 ⭐⭐⭐）

将 CoVSpec 扩展为通信感知的端到端优化框架，这是当前文献的明确空白。

核心扩展点

模块	扩展方案	对标论文
Visual Token Reduction	通信带宽感知的弹性压缩 + 语义融合（云端压缩→edge仅收text embeddings）	SpecVLM + HiViS
Gating Mechanism	Entropy + Margin 联合门控：网络条件 + 预测不确定性 + 模型置信度三维自适应	SAGE + DREAM
Draft Length	通信延迟感知的自适应 draft length（高延迟→长 draft，低延迟→短 draft）	CoVSpec 原有 + edgeVLM
Drafter 训练	在线 logit 蒸馏 + 自数据蒸馏（云端实时监督 edge drafter 持续优化）	SpecVLM + MASSV
Verification	云端 feature 注入的 cross-attention verification 增强（提高 accept rate）	DREAM

实验设计

在不同网络条件下（WiFi/5G/4G，带宽 1–100 Mbps，延迟 10–500ms）评估端到端性能
指标：端到端延迟、通信量（bytes/query）、API cost、acceptance rate、生成质量
与单机 SD（HiViS/SpecVLM）和纯 cloud/纯 edge 对比

期刊适配性

TMC 高度重视通信感知的系统设计，此路线天然匹配 TMC 的 "mobile computing + networking" 定位。

🎯 推荐路线 2：多用户边云协同 VLM 推理系统（新颖 ⭐⭐⭐）

从单用户扩展到多用户 edge server 场景，利用共享 drafter 和批处理优化实现系统级加速。

核心扩展点

模块	扩展方案
Multi-User Drafter	共享 drafter backbone + per-user lightweight adapters（不同用户 query 的视觉特征不同）
Batch Speculative Decoding	多用户 draft tokens 合并批处理→云端并行验证（提升 GPU 利用率）
负载感知调度	基于 edge server 负载和网络条件动态分配 draft length 和压缩率
KV-Cache 共享	云端 target VLM 的 KV-cache 跨用户共享（相似 query/图像）
通信资源分配	多用户场景下的带宽/延迟联合优化（Lyapunov 或 RL-based）

实验设计

模拟 10–100 并发用户，不同 query 复杂度和图像分辨率
指标：系统吞吐量 (queries/s)、平均延迟、tail latency (P99)、通信总量
与 per-user SD 和无共享 baseline 对比

📹 推荐路线 3：视频 VLM 的边云协同投机解码（前沿 ⭐⭐）

将 CoVSpec 框架扩展到视频 VLM 场景，利用视频帧间冗余实现更极致的加速。

核心扩展点

模块	扩展方案	对标
Temporal Visual Reduction	利用帧间相似性选择性传输关键帧视觉特征，非关键帧仅传差分	Sparrow
视频语义内化	云端 Vid-LLM 将视频语义内化到 text hidden states，edge drafter 仅收文本	Sparrow + HiViS
Frame-level Gating	基于帧信息量和运动幅度控制 draft length 和压缩率	CoVSpec 原有
上下文持续优化	云端延迟输出持续更新 edge drafter 的视频历史上下文	edgeVLM

📚 参考文献

#	论文	arXiv	年份
1	HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs	2509.23928	2025
2	SpecVLM: Fast Speculative Decoding in Vision-Language Models	2509.11815	2025
3	DREAM: Drafting with Refined Target Features for Multimodal SD	2505.19201	2025
4	edgeVLM: Cloud-edge Collaborative Real-time VLM via Context Transfer	2508.12638	2025
5	SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs	2602.00523	2026
6	Sparrow: Speculative Decoding in Video LLMs	2602.15318	2026
7	FastVLM: Self-Speculative Decoding for Fast VLM Inference	2510.22641	2025
8	MASSV: Multimodal Adaptation and Self-Data Distillation for SD of VLMs	2505.10526	2025

📚 CoVSpec → TMC 期刊扩展调研报告

📑 目录

🔍 调研概述

CoVSpec 在文献地图中的定位

① HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

② SpecVLM: Fast Speculative Decoding in Vision-Language Models

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

③ DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

④ edgeVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

⑤ SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

⑥ Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

⑦ FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

⑧ MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of VLMs

📄 Introduction 总结

🔬 核心方法

🔄 Pipeline

📊 实验结果

💡 对 CoVSpec 的借鉴

🎯 核心洞察：CoVSpec 在文献中的差异化优势

🔧 可直接融入 CoVSpec 的技术

🚀 推荐路线 1：通信感知的联合优化框架（最稳 ⭐⭐⭐）

核心扩展点

实验设计

期刊适配性

🎯 推荐路线 2：多用户边云协同 VLM 推理系统（新颖 ⭐⭐⭐）

核心扩展点

实验设计

📹 推荐路线 3：视频 VLM 的边云协同投机解码（前沿 ⭐⭐）

核心扩展点