🔍 调研概述
CoVSpec 是 device-edge VLM speculative decoding 框架,核心创新包括:visual token reduction、margin-based gating、adaptive draft length、parallel branching、decoupled verification-correction,目标降低 VLM 推理延迟、通信量和 API cost。
本次调研覆盖 2023–2026 年 arXiv 论文,聚焦以下方向:VLM speculative decoding、视觉 token 剪枝、边云协同推理、自适应树结构、视频 VLM 加速,共筛选出 8 篇最相关论文。
CoVSpec 在文献地图中的定位
| 维度 | CoVSpec 的独特位置 |
| VLM SpecDec | ✓ 在 HiViS/ SpecVLM/ DREAM 等基础上,首次引入 device-edge 协同 维度 |
| Visual Token Reduction | ✓ 与 SpecVLM 弹性压缩、HiViS token 隐藏互补,CoVSpec 更侧重 通信感知的 reduction |
| Gating / Adaptive | ✓ margin-based gating + adaptive draft length 区别于 SAGE 的 entropy 树和 DREAM 的 entropy 特征选择 |
| Edge-Cloud | ✓ edgeVLM 是唯一直接相关工作,但使用 context transfer 而非 speculative decoding |
| Verification | ✓ decoupled verification-correction 是 CoVSpec 独有创新,与标准 tree-verify 形成互补 |
Top 8 最相关论文
① HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs
arXiv:2509.23928
2025.09
中科院自动化所
Speedup: 3.15×
📄 Introduction 总结
将 LLM 的 speculative decoding 迁移到 VLM 面临两大挑战:(1) 视觉 token 与轻量 drafter 之间存在语义鸿沟——drafter 没有足够容量处理跨模态融合;(2) 长视觉 token 序列(如 LLaVA-Next 超过 2000 tokens)使 drafter 的 prefill 计算开销主导延迟。HiViS 的核心洞察是:VLM 中视觉 token 高度冗余,关键视觉语义已被编码到文本 hidden states 中,drafter 可安全地完全不处理视觉 token。
🔬 核心方法
- 视觉Token隐藏:利用 target VLM 的 cross-modality self-attention 作为语义融合模块,将视觉信息注入 text embeddings,drafter 仅接收注入后的文本表示
- 时间步对齐训练:time-step-aware aligned training,在 drafter 独立 drafting 的每一步施加 step-dependent bias-correction residual,使 drafter 自主传播和更新视觉-文本语义
- Tree-based 验证:采用 EAGLE-2 风格的树结构 drafting 和并行验证
🔄 Pipeline
Image → Vision Encoder → Visual Tokens
↓
Target VLM: Self-Attention (语义融合) → Visual-Injected Text Embeddings
↓
Drafter: 仅接收 Text Embeddings (无视觉token) → Step-dependent Bias Correction → Draft Tokens
↓
Target VLM: Parallel Tree Verification (accept/reject) → Final Output
📊 实验结果
| 模型 | Benchmark | Acceptance Length ↑ | Speedup |
| LLaVA-1.5-7B | MMBench | 显著提升 | up to 3.15× |
| LLaVA-1.5-13B | LLaVA-Bench | 显著提升 | lossless |
| 在多种 VLM 上验证,consistent gains in acceptance length and speedup |
💡 对 CoVSpec 的借鉴
关键启示:HiViS 证明 drafter 完全不需要直接处理视觉 token 是可行的。CoVSpec 的 visual token reduction 可以借鉴这一思想——edge 端 drafter 不必上传完整视觉特征,云端的 semantic fusion 可以提供压缩后的视觉-文本表示,从而进一步降低通信量。
② SpecVLM: Fast Speculative Decoding in Vision-Language Models
arXiv:2509.11815
2025.09
AMD / 西安交大
Speedup: 2.5–2.9×
📄 Introduction 总结
SpecVLM 对 VLM speculative decoding 进行了系统性研究。首先构建了 EAGLE-2 风格的强基线 EagleVLM (1.5–2.3× speedup),然后识别出 VLM 场景的双重瓶颈:(1) 视觉 prefill 主导 wall-clock 时间和显存;(2) 现有视觉压缩方法(pruning/pooling/conv/resampler)各有优劣但缺乏自适应选择。提出弹性视觉压缩器和在线 logit 蒸馏来解决这些问题。
🔬 核心方法
- EagleVLM 基线:EAGLE-2 的 VLM 改编——单层 transformer decoder drafter + tree-structured drafting
- 弹性视觉压缩器:自适应选择 pruning、pooling、convolution、resampler 四类操作,按输入动态平衡 FLOPs/参数量与精度
- 在线 Logit 蒸馏:用 on-the-fly teacher logits + penultimate features 训练 drafter(CE + Smooth L1 loss),消除离线蒸馏数据集的存储和预处理开销
- 训练时间 Scaling 效应:发现更长的在线训练单调提升 average accepted length
🔄 Pipeline
Image → Elastic Visual Compressor (自适应选择 Prune/Pool/Conv/Resample) → Reduced Visual Tokens
↓
Drafter (单层Decoder): 接收压缩视觉Token + 文本Token → Draft Tokens (Tree-structured)
↓
Online Logit Distillation: Teacher logits + penultimate features → CE + Smooth L1 → Train Drafter
↓
Target VLM: Parallel Tree Verification → Final Output
📊 实验结果
| 模型 | Benchmark | Speedup | 备注 |
| LLaVA-v1.5-7B | LLaVA-Bench-Wild | 2.5–2.9× | lossless |
| LLaVA-v1.6-7B | MMMU | 2.5–2.9× | 跨分辨率一致 |
| 5 epoch 内达到峰值,跨 task difficulty 稳定 |
💡 对 CoVSpec 的借鉴
关键启示:(1) 弹性压缩器的自适应选择理念可直接融入 CoVSpec 的 visual token reduction 模块——根据网络状况和任务难度动态选择压缩策略;(2) 在线 logit 蒸馏消除离线数据集需求,对 edge-cloud 场景中的 drafter 持续训练非常有价值;(3) 训练时间 scaling 效应为 CoVSpec 的 drafter 训练策略提供参考。
③ DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding
arXiv:2505.19201
2025.05
NYU / Cerebras
Speedup: 3.6×
📄 Introduction 总结
DREAM 指出 VLM 的 SD 需要解决跨模态信息对齐问题——标准 VLM 的视觉编码器和语言模型通过 24 层 self-attention 深度交互,drafter 难以在轻量架构中复现这种融合。提出三个互补创新:交叉注意力特征注入、熵自适应中间层选择、视觉 token 压缩。
🔬 核心方法
- Cross-Attention 特征注入:通过交叉注意力将 target model 中间层特征注入 drafter,实现高效知识迁移
- 熵自适应中间层选择:训练阶段基于 attention entropy 动态选择 target model 的中间层特征来监督 drafter,提升预测精度和 acceptance length
- 视觉 Token 压缩:由 target intermediate features 引导的视觉输入压缩方案,减少 drafter 处理延迟
🔄 Pipeline
Image + Text → Target VLM (forward pass) → Intermediate Features (多层)
↓
Entropy-based Feature Selection → 选择最优中间层特征
↓
Cross-Attention: Target Features → Drafter Feature Injection
↓
Visual Token Compression (guided by target features) → Compressed Visual Input
↓
Drafter (轻量): Generate Draft Tokens → Target VLM: Verify → Final Output
📊 实验结果
| 模型 | Speedup | Benchmark |
| LLaVA-v1.6-7B | up to 3.6× | 多模态 benchmark |
| LLaVA-v1.6-13B | 显著提升 | Table/VQA/Chart |
| Pixtral-12B / Gemma3-12B | 显著提升 | 跨模型验证 |
| SmolVLM-2B | 显著提升 | 小模型同样受益 |
💡 对 CoVSpec 的借鉴
关键启示:(1) Cross-attention 特征注入机制可以增强 CoVSpec 的 drafter 与 cloud VLM 之间的对齐——云端中间特征通过跨注意力传给 edge drafter;(2) 熵自适应选择为 CoVSpec 的 margin-based gating 提供了互补的信息度量维度;(3) 跨 LLaVA/Pixtral/Gemma3/SmolVLM 的泛化验证说明方法具有良好的模型无关性。
④ edgeVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer
arXiv:2508.12638
2025.08
清华大学
最相关边云协同工作
📄 Introduction 总结
edgeVLM 指出云边协同 VLM 推理的核心矛盾:云端大模型 (LVLM) 推理准确但延迟高(网络传输+推理+排队),边缘小模型 (SVLM) 延迟低但精度不足。现有方案(模型分区/动态卸载)忽略了延迟的 LVLM 响应的潜在价值。提出 Context Transfer 范式:将 LVLM 的延迟输出作为历史上下文,引导 SVLM 进行当前帧的实时推理。
🔬 核心方法
- Context Transfer 范式:将 delayed LVLM outputs 重用作 SVLM 的 contextual priors,而非实时反馈
- Context Replacement Module (CRM):提取 LVLM 高质量响应中的关键文本片段,替换 SVLM 的低质量历史上下文
- Visual Focus Module (VFM):利用 LVLM 的 grounding 能力识别语义显著区域,引导 SVLM 的视觉关注(mask 非必要区域,减少视觉 token)
- Training-free:两个模块均无需训练,即插即用
🔄 Pipeline
Video Stream → Frame T → Edge SVLM (实时推理)
→ Keyframe → Cloud LVLM (延迟推理)
↓
LVLM Delayed Output (Frame T-d):
├─ CRM: 提取关键文本 → 替换 SVLM 历史上下文
└─ VFM: 识别 ROI → 特征匹配 → 引导 SVLM 视觉关注
↓
SVLM + Refined Context + Visual Focus → Real-time Output
📊 实验结果
| 任务 | 数据集 | 性能提升 |
| Multi-Object Recognition | 4个公开数据集 | consistent improvements |
| Real-time V-L Reasoning | 自动驾驶相关 | 显著超越 prior cloud-edge 方法 |
💡 对 CoVSpec 的借鉴
关键启示:(1) Context Transfer 范式与 CoVSpec 的 speculative decoding 可以融合——LVLM 延迟输出不仅可作为历史上下文指导 SVLM,也可以提供 drafter 的先验信息;(2) VFM 的视觉关注引导与 CoVSpec 的 visual token reduction 天然互补——ROI-based 压缩比 uniform reduction 更精准;(3) Training-free 设计使其易于集成到 CoVSpec pipeline。
⑤ SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs
arXiv:2602.00523
2026.01
最新论文
Speedup: 3.36×
📄 Introduction 总结
现有 VLM speculative decoding 方法使用静态树结构,无法适应不同 decoding step 的预测难度变化——高置信度时树结构过于保守,低置信度时探索不足。SAGE 提出基于输出熵动态调整 speculation tree 结构:高置信度(低熵)→ deeper-narrower trees;低置信度(高熵)→ shallower-wider trees。
🔬 核心方法
- Entropy-based Confidence Indicator:输出熵作为自然置信度指标,在 decoding steps 间具有强时序相关性
- 动态树结构调整:Deeper-narrower trees 最大化高置信度时的推测深度;Shallower-wider trees 在不确定时增加探索多样性
- Lossless 解码:不损失输出质量
🔄 Pipeline
Target VLM: Forward Pass → Compute Output Entropy (per step)
↓
Entropy → Adaptive Tree Construction:
├─ Low Entropy → Deeper-Narrower Tree (max speculation depth)
└─ High Entropy → Shallower-Wider Tree (diversify exploration)
↓
Drafter: Generate Draft Tokens (per adapted tree) → Target VLM: Verify → Output
📊 实验结果
| 模型 | Speedup | Acceptance Length |
| LLaVA-OneVision-72B | 3.36× | 显著提升 |
| Qwen2.5-VL-72B | 3.18× | 显著提升 |
💡 对 CoVSpec 的借鉴
关键启示:(1) SAGE 的 entropy-guided 自适应与 CoVSpec 的 margin-based gating 可以联合设计——entropy 捕捉预测不确定性,margin 捕捉模型置信度,二者互补;(2) 动态树结构调整为 CoVSpec 的 adaptive draft length + parallel branching 提供了系统化的自适应范式;(3) 在大模型 (72B) 上的验证证明了方法的可扩展性。
⑥ Sparrow: Text-Anchored Window Attention with Visual-Semantic Glimpsing for Speculative Decoding in Video LLMs
arXiv:2602.15318
2026.02
视频LLM加速
Speedup: 2.82× (25K tokens)
📄 Introduction 总结
将 speculative decoding 应用于 Video LLM 面临独特的性能崩塌问题——KV-cache 爆炸和 context window 失配导致 drafter 陷入 attention dilution 和 negative visual gain。Sparrow 观察到 Vid-LLM 中的视觉语义内化现象:关键视觉语义在深层交互中被隐式编码到文本 hidden states 中,使原始视觉输入在深层推理中呈结构性冗余。
🔬 核心方法
- Text-Anchored Window Attention:通过 hidden state reuse 将视觉计算完全卸载到 target model,drafter 使用视觉感知的文本锚定窗口注意力
- Intermediate-Layer Visual State Bridging:利用中间层视觉状态桥接训练 drafter,过滤低级视觉噪声
- Multi-Token Prediction:桥接 training-inference distribution shift
🔄 Pipeline
Video → Visual Encoder → 25K+ Visual Tokens
↓
Target Vid-LLM: 视觉语义内化 (deep-layer) → Visual-Semantic Text Hidden States
↓
Drafter: Text-Anchored Window Attention (用hidden states而非原始visual tokens)
+ Intermediate Visual State Bridging (训练)
+ Multi-Token Prediction
↓
Target Vid-LLM: Verify → Output (2.82× speedup)
📊 实验结果
| 场景 | Visual Tokens | Speedup |
| 长视频理解 | ~25K | 2.82× |
| 多Video LLM | 大量 | 有效解决长序列性能退化 |
💡 对 CoVSpec 的借鉴
关键启示:(1) 视频场景是 CoVSpec 的自然扩展方向——TMC 期刊扩展可加入video VLM speculative decoding;(2) 视觉语义内化现象为 CoVSpec 的 visual token reduction 提供了理论支撑;(3) Multi-token prediction 策略可增强 CoVSpec 的 parallel branching 能力,减少训练-推理分布偏移。
⑦ FastVLM: Self-Speculative Decoding for Fast Vision-Language Model Inference
arXiv:2510.22641
2025.10
IIT Bombay / IJCNLP-AACL 2025
Speedup: 1.55–1.85×
📄 Introduction 总结
FastVLM 提出基于模仿学习的自投机解码 (SSD) 框架。核心思路:利用轻量 draft model 自回归生成 token,full model 非自回归验证。通过 imitation network 将 full model 深层洞察整合到 draft model,实现效率与精度的平衡。
🔬 核心方法
- Imitation-Learning SSD:draft model 通过模仿网络从 full model 深层架构学习
- Rejection-driven Refinement:被拒绝的 token 由 full model 修正后用于指导 draft model 优化
- Non-autoregressive Verification:full model 并行验证 draft tokens
🔄 Pipeline
Image + Text → Draft Model (轻量, 自回归生成) → Candidate Tokens
↓
Full VLM: Non-autoregressive Parallel Verification
├─ Accepted Tokens → Seamless Continuation
└─ Rejected Tokens → Full Model Correction → Imitation Network → Guide Draft Refinement
📊 实验结果
| Speedup | 性能损失 | 发表 |
| 1.55–1.85× | minimal | IJCNLP-AACL 2025 |
💡 对 CoVSpec 的借鉴
关键启示:(1) Imitation learning + rejection-driven refinement 与 CoVSpec 的 decoupled verification-correction 高度相关——两者都利用了被拒绝 token 的价值;(2) 自投机解码思路(不引入外部 drafter)为 CoVSpec 的边缘端 drafter 设计提供了简化方向。
⑧ MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of VLMs
arXiv:2505.10526
2025.05
Cerebras
Accept Length: +30%
📄 Introduction 总结
MASSV 解决 VLM speculative decoding 的两大基础挑战:(1) 可作为高效 drafter 的小语言模型缺少处理视觉输入的架构组件;(2) 小模型的 token 预测与考虑视觉上下文的 VLM target 不匹配。提出两阶段方法:先连接 target VLM 的 vision encoder,再用自蒸馏视觉指令微调对齐。
🔬 核心方法
- 多模态适配 (Phase 1):通过轻量可训练 projector 将 target VLM 的 vision encoder 连接到 draft model,使纯文本小模型获得视觉处理能力
- 自数据蒸馏 (Phase 2):用 target VLM 生成的响应对 drafter 进行 self-distilled visual instruction tuning,对齐 token 预测分布
🔄 Pipeline
Target VLM Vision Encoder → Trainable Projector → Small Language Model (→ 多模态Drafter)
↓
Phase 1: 连接 Vision Encoder (轻量projector训练)
↓
Phase 2: Target VLM 生成响应 → Self-Distilled Visual Instruction Tuning
↓
Multi-modal Drafter: Generate Draft Tokens → Target VLM: Verify → Output
📊 实验结果
| 模型族 | Accept Length 提升 | Speedup |
| Qwen2.5-VL 系列 | +30% | up to 1.46× |
| Gemma3 系列 | +30% | up to 1.46× |
💡 对 CoVSpec 的借鉴
关键启示:(1) MASSV 的两阶段训练流程为 CoVSpec 的 edge drafter 设计提供了可复用的训练范式——先用轻量 projector 赋予视觉能力,再用蒸馏对齐分布;(2) "将任意小语言模型转化为 VLM drafter"的架构兼容性使 CoVSpec 可以灵活选择边缘端模型;(3) 自数据蒸馏避免了人工标注成本。
📊 对比分析总表
| 论文 | 年份 | 核心创新 | Speedup | VLM SD | 边云协同 | Visual Reduction | Adaptive | Video |
| CoVSpec | 2026 | device-edge SD + margin gating + decoupled verify | — | ✅ | ✅ | ✅ | ✅ | — |
| HiViS | 2025 | 视觉token隐藏 + 时间步对齐训练 | 3.15× | ✅ | — | ✅ | — | — |
| SpecVLM | 2025 | 弹性压缩器 + 在线logit蒸馏 | 2.9× | ✅ | — | ✅ | ✅ | — |
| DREAM | 2025 | Cross-attn注入 + 熵自适应特征选择 | 3.6× | ✅ | — | ✅ | ✅ | — |
| edgeVLM | 2025 | Context Transfer + CRM + VFM | — | — | ✅ | ✅ | — | — |
| SAGE | 2026 | Entropy引导自适应树结构 | 3.36× | ✅ | — | — | ✅ | — |
| Sparrow | 2026 | 语义内化 + Window Attn + Multi-token | 2.82× | ✅ | — | ✅ | — | ✅ |
| FastVLM | 2025 | Imitation SSD + Rejection Refinement | 1.85× | ✅ | — | — | — | — |
| MASSV | 2025 | 多模态适配 + 自数据蒸馏 | 1.46× | ✅ | — | — | — | — |
✅ = 核心特性 | — = 未涉及 | CoVSpec 是唯一同时覆盖 VLM SD + 边云协同的工作
💡 可借鉴思路总结
🎯 核心洞察:CoVSpec 在文献中的差异化优势
CoVSpec 是目前唯一将 speculative decoding 与 device-edge 协同深度结合的工作。所有现有 VLM SD 工作(HiViS、SpecVLM、DREAM、SAGE、FastVLM、MASSV)都假设单机场景,而 edgeVLM 虽然做边云协同但不使用 speculative decoding。这为 CoVSpec 的 TMC 期刊扩展提供了天然的研究空白。
🔧 可直接融入 CoVSpec 的技术
| 技术 | 来源 | 融入方式 |
| 视觉Token隐藏 / 语义融合 | HiViS | 云端 target VLM 融合视觉信息后仅传 text embeddings 给 edge drafter,降低通信开销 |
| 弹性视觉压缩器 | SpecVLM | 按网络带宽/延迟自适应选择压缩策略(prune/pool/conv),通信感知的 visual reduction |
| Cross-Attention 特征注入 | DREAM | 云端中间特征通过 cross-attention 传给 edge drafter,增强对齐 |
| Entropy 引导自适应 | SAGE + DREAM | 与 margin-based gating 融合,熵+margin 联合判断 draft length 和 tree 结构 |
| Context Transfer 范式 | edgeVLM | 云端延迟输出作为 edge drafter 的历史先验,与 speculative tokens 互补 |
| 在线 Logit 蒸馏 | SpecVLM | edge drafter 在线接收 cloud teacher 的实时 logits 进行持续对齐,无需离线数据集 |
| 自数据蒸馏 | MASSV | 云端 VLM 自生成训练数据蒸馏 edge drafter,经济高效 |
| Multi-Token Prediction | Sparrow | 增强 parallel branching 的 token 多样性,减少分布偏移 |
🛤️ TMC 期刊扩展路线推荐
🚀 推荐路线 1:通信感知的联合优化框架(最稳 ⭐⭐⭐)
将 CoVSpec 扩展为通信感知的端到端优化框架,这是当前文献的明确空白。
核心扩展点
| 模块 | 扩展方案 | 对标论文 |
| Visual Token Reduction | 通信带宽感知的弹性压缩 + 语义融合(云端压缩→edge仅收text embeddings) | SpecVLM + HiViS |
| Gating Mechanism | Entropy + Margin 联合门控:网络条件 + 预测不确定性 + 模型置信度三维自适应 | SAGE + DREAM |
| Draft Length | 通信延迟感知的自适应 draft length(高延迟→长 draft,低延迟→短 draft) | CoVSpec 原有 + edgeVLM |
| Drafter 训练 | 在线 logit 蒸馏 + 自数据蒸馏(云端实时监督 edge drafter 持续优化) | SpecVLM + MASSV |
| Verification | 云端 feature 注入的 cross-attention verification 增强(提高 accept rate) | DREAM |
实验设计
- 在不同网络条件下(WiFi/5G/4G,带宽 1–100 Mbps,延迟 10–500ms)评估端到端性能
- 指标:端到端延迟、通信量(bytes/query)、API cost、acceptance rate、生成质量
- 与单机 SD(HiViS/SpecVLM)和纯 cloud/纯 edge 对比
期刊适配性
TMC 高度重视通信感知的系统设计,此路线天然匹配 TMC 的 "mobile computing + networking" 定位。
🎯 推荐路线 2:多用户边云协同 VLM 推理系统(新颖 ⭐⭐⭐)
从单用户扩展到多用户 edge server 场景,利用共享 drafter 和批处理优化实现系统级加速。
核心扩展点
| 模块 | 扩展方案 |
| Multi-User Drafter | 共享 drafter backbone + per-user lightweight adapters(不同用户 query 的视觉特征不同) |
| Batch Speculative Decoding | 多用户 draft tokens 合并批处理→云端并行验证(提升 GPU 利用率) |
| 负载感知调度 | 基于 edge server 负载和网络条件动态分配 draft length 和压缩率 |
| KV-Cache 共享 | 云端 target VLM 的 KV-cache 跨用户共享(相似 query/图像) |
| 通信资源分配 | 多用户场景下的带宽/延迟联合优化(Lyapunov 或 RL-based) |
实验设计
- 模拟 10–100 并发用户,不同 query 复杂度和图像分辨率
- 指标:系统吞吐量 (queries/s)、平均延迟、tail latency (P99)、通信总量
- 与 per-user SD 和无共享 baseline 对比
📹 推荐路线 3:视频 VLM 的边云协同投机解码(前沿 ⭐⭐)
将 CoVSpec 框架扩展到视频 VLM 场景,利用视频帧间冗余实现更极致的加速。
核心扩展点
| 模块 | 扩展方案 | 对标 |
| Temporal Visual Reduction | 利用帧间相似性选择性传输关键帧视觉特征,非关键帧仅传差分 | Sparrow |
| 视频语义内化 | 云端 Vid-LLM 将视频语义内化到 text hidden states,edge drafter 仅收文本 | Sparrow + HiViS |
| Frame-level Gating | 基于帧信息量和运动幅度控制 draft length 和压缩率 | CoVSpec 原有 |
| 上下文持续优化 | 云端延迟输出持续更新 edge drafter 的视频历史上下文 | edgeVLM |
📚 参考文献
| # | 论文 | arXiv | 年份 |
| 1 | HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in VLMs | 2509.23928 | 2025 |
| 2 | SpecVLM: Fast Speculative Decoding in Vision-Language Models | 2509.11815 | 2025 |
| 3 | DREAM: Drafting with Refined Target Features for Multimodal SD | 2505.19201 | 2025 |
| 4 | edgeVLM: Cloud-edge Collaborative Real-time VLM via Context Transfer | 2508.12638 | 2025 |
| 5 | SAGE: Entropy-Guided Adaptive Speculative Decoding for VLMs | 2602.00523 | 2026 |
| 6 | Sparrow: Speculative Decoding in Video LLMs | 2602.15318 | 2026 |
| 7 | FastVLM: Self-Speculative Decoding for Fast VLM Inference | 2510.22641 | 2025 |
| 8 | MASSV: Multimodal Adaptation and Self-Data Distillation for SD of VLMs | 2505.10526 | 2025 |