2026-01-03
Transformer 架构革新
LSTM 之父推出 PoPE 极坐标位置编码,终结 RoPE 长度外推难题;同期「去 KV Cache」研究把长上下文压入权重,使持续学习成为可能。两项工作分别从位置机制与记忆机制突破 Transformer scaling 瓶颈。
2025-12-06
国产大模型与架构突围
腾讯混元2.0、阿里千问办公全家桶、华为新注意力架构集中亮相,国产大模型在性能、场景落地与底层创新上全面提速,标志中国从跟随转向并跑甚至领跑,重塑全球基础模型竞争格局。
2025-11-01
Transformer架构再突破
月之暗面开源Kimi Linear注意力,首次在同等训练下超越全注意力,长文KV缓存降75%、推理加速6倍;上海AI Lab混合扩散语言模型SDAR突破6600 tgs。新机制冲击传统Transformer垄断,为长上下文、实时交互与端侧部署打开全新可能。
2025-10-26
Transformer架构反思与后注意力时代
“Attention”作者公开呼吁告别Transformer,叠加NeurIPS高分论文用判别式监督重塑推理LLM,凸显社区对Scaling Law边际效应的担忧,后Transformer架构与训练策略成为下一波核心竞争点。
2025-10-25
Transformer架构颠覆
Meta发布“自由Transformer”打破8年自注意力铁律,模型首次具备“潜意识”打腹稿能力;同时Transformer作者Llion Jones公开批评领域僵化。双重信号预示大模型底层架构进入换代窗口,可能重塑训练范式与硬件需求。
2025-10-07
代码生成与智能体演进
微软RPG以知识图谱替代自然语言规划,实现仓库级36K行代码一键生成,通过率69.7%刷新SOTA;DeepMind推出CodeMender,融合被动修复与主动防御;田渊栋团队理论证明Transformer可在训练中自然学会叠加推理,为自进化代码智能体奠定算法基础,编程自动化再迈关键一步。
2025-07-17
模型架构效率革命
谷歌DeepMind提出MoR新架构,推理速度翻倍、内存减半,被视作“Transformer杀手”;潜空间推理综述提出无需Token的循环/递归框架,带宽提升2700倍,为大模型效率与规模同时升级提供双轨路径。
2025-07-15
AI for Science新进展
斯坦福FAMPNN实现蛋白质全原子建模,MedGemma医疗代码生成平台开源,能量驱动Transformer挑战传统架构,AI正从“统计螺丝刀”走向科学发现合作者,论文密集登上Nature、ICML。
2025-06-17
模型架构与推理优化
谷歌承认Transformer注意力机制瓶颈,计划重写架构;R-KV把KV Cache压至10%无损推理;CMU&英伟达Multiverse实现原生并行出token;多路径创新共同追求更长上下文、更低功耗、更高吞吐。
2025-06-15
混合架构新范式崛起
康奈尔Eso-LM将扩散模型与自回归融合,速度提升65倍,英伟达下注;Transformer“混血”引发对自回归范式的再思考,或成通往AGI的又一技术路线,学术与资本同时加注。
2025-06-14
顶级会议与学术亮点
CVPR 2025奖项公布,牛津&Meta王建元获最佳论文,谢赛宁获年轻研究者奖;Transformer八周年论文引用破18万,北大韦东奕散焦方程研究登数学顶刊,显示AI跨学科影响力持续扩大。
2025-06-08
后Transformer架构革新
谷歌提出“注意力+保留门”新架构,清华团队三连击改进注意力机制,参数减少40%、训练速度提升5-8倍,显示Transformer统治地位首次遭遇系统性挑战,底层范式换代窗口已开启。
2025-04-28
国产大模型密集上新
阿里云Qwen3、字节PHD-Transformer、阶跃Step1X-Edit、DeepSeek-R1T等国产大模型本周集中发布,覆盖语言、多模态、推理、图像编辑等方向,显示国内在基础模型层面的迭代速度已迈入周级,对全球开源生态与产业落地形成持续冲击。
2025-04-04
Transformer架构革新与多Token注意力
Meta FAIR提出多Token注意力(MTA)一次关注多线索,将简单任务错误率压至近0;同期谷歌Gemini 2.5 Pro换帅加速迭代,国产即梦3.0亦借MTA思路登顶中文海报生成。注意力机制从“单点”到“多焦”演进,有望重塑大模型基础架构。
2025-03-15
Transformer架构革新
何恺明与LeCun团队提出DyT,用9行代码移除归一化层,性能不降反升,已被CVPR 2025收录;同期清华开源「赤兔」推理引擎,国产软硬协同加速落地。双重突破挑战Transformer「标配」认知,为高效大模型训练与端侧部署打开新路径。
2025-03-14
大模型架构革新
何恺明、LeCun等团队提出无归一化Transformer,用9行代码替代LayerNorm,性能不降反升;同时出现SCoT动态推理链、TokenSwift长文本3×加速等底层创新,标志着大模型效率与泛化能力进入新阶段。
2025-02-28
AI+科学计算突破
诺奖得主David Baker团队AI从头设计蛋白酶登Science,MIT用Transformer解决经验贝叶斯,蛋白质对称性预测、细胞电活动重构等成果频出,AI for Science进入实用快车道。
2025-02-16
AI视频与多模态突破
阿里升级人像视频生成,表情动作逼近专业水准;Meta脑机接口实现“免手术AI读心”边睡边发帖;田渊栋提出连续概念混合革新Transformer预训练,多模态、神经接口与模型架构齐头并进,拓展AI交互边界。
2025-02-11
Scaling Law与架构争议
OpenAI、奥特曼重申Scaling Law继续有效并预测成本年降10倍,而清华&字节研究指Transformer组合能力逼近上限,MIT提出COAT自回归搜索新框架,学界与产业界对下一代架构路径分歧加剧。
2025-01-18
英伟达AI生态再升级
RTX 5090D对华特供版锁死AI算力,DLSS 4引入Transformer帧生成,游戏帧率破200;同时提供人形机器人全套计算平台,显示英伟达在AI训练、推理及边缘AI的全面布局。