2026-01-03
Transformer 架构革新
LSTM 之父推出 PoPE 极坐标位置编码,终结 RoPE 长度外推难题;同期「去 KV Cache」研究把长上下文压入权重,使持续学习成为可能。两项工作分别从位置机制与记忆机制突破 Transformer scaling 瓶颈。
2025-02-20
多模态模型突破
视觉-语言模型密集升级:DeepSeek-R1推理框架首次迁移到视觉领域,谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家,VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA,降低创作与研究门槛。
2024-02-25
Gemini翻车与长上下文大战
谷歌Gemini 1.5以百万级token上下文刷新纪录,却因图像生成“刻意多元化”引发公关危机,紧急下线生图功能;微软LongRoPE迅速反击,把窗口推至200万token且几乎零额外训练。上下文长度成为大模型新战场,同时也暴露价值对齐与数据策略的脆弱性,对商用信任度提出挑战。