从模型规模转向系统规模——研究AI Agent驾驭能力的规模化方法论。当单个模型遇到瓶颈时,如何通过系统架构的扩展来实现Agent能力的持续提升。
将扩散模型循环应用于语言生成,探索非自回归文本生成的新范式。循环扩散架构可能打破自回归生成的速度瓶颈。
首个评估"始终在线"AI个人助手的基准测试,覆盖用户数字世界的广泛访问权限,为下一代OS级AI助手设定评测标准。
几何正交残差投影实现无乘法器的2的幂次Transformer量化,大幅降低推理硬件成本,有望在边缘设备上运行大模型。
探索语言模型是否需要类似人类睡眠的"休息-重置"机制来维持认知性能,从认知科学角度重新审视LLM的训练与推理。
· VeriTrace: Evolving Mental Models for Deep Research Agents — AI深度研究Agent的思维模型进化
· Prism: A Plug-in Reproducible Infrastructure for Scalable Multimodal Continual Instruction Tuning — 多模态持续指令微调基础设施
· Forgetting in Language Models: Capacity, Optimization, and Self-Generated Replay — LLM遗忘机制与自生成回放
· Length Generalization with Log-Depth Recurrent Units — 对数深度循环单元实现长度泛化
· Global Convergence of Wasserstein Policy Gradient — Wasserstein策略梯度全局收敛性证明
5/22 被Gartner评为企业编码Agent领域领导者 (Codex)
5/20 GPT模型证伪离散几何核心猜想 — AI在纯数学领域取得突破
5/19 推进内容溯源标准,构建更安全透明的AI生态
5/18 与Dell合作:Codex推向混合云与本地部署
5/15 ChatGPT新增个人理财功能
5/14 Codex 随时随地可用 — 多平台扩展
5/22 Project Glasswing 初始更新发布
5/14 2028: AI全球领导力两种情景 — 前瞻政策分析
5/8 Teaching Claude Why — 减少Agent不对齐的新研究
5/7 自然语言自编码器 — 将Claude思维转化为可读文本
5/22 I/O 2026 Dialogues回顾 — AI、量子计算、机器人圆桌
5/20 I/O 2026百大公告总结:Gemini Omni、Google Antigravity、Universal Cart
5/19 AI Mode美国用户行为洞察 — 从关键词到自然语言的搜索变革
5/20 Google Beam会议功能 + Workspace AI新体验
AI辅助编程的深度反思:AI帮你写代码更快,但让你写更好的代码更慢。探讨速度与质量的张力,引发社区大规模讨论。
挪威部署2PB华为闪存用于LLM训练,展示欧洲在AI基础设施上的大规模投入和地缘技术博弈。