架构 - AI话题 - AI快开门

2026-02-07

模型效率与架构创新

小米MiMo混合稀疏注意力减负KV-Cache 80%，DeepMind“算力矿场”暴力搜出超越ReLU的新激活函数，人大附中邓明扬提出单步生成的漂移模型。架构微创新正带来大模型效率跃迁。

稀疏注意力激活函数单步生成模型效率架构创新

2026-01-15

硬件-模型协同革命

OpenAI百亿美金押注Cerebras晶圆级巨芯，英伟达开源TTT-E2E记忆压缩，苹果Gemini入机，国产GPU一年双芯量产，算力与模型联合重构，开启低延迟、高带宽、高能效新范式。

晶圆级芯片 Cerebras TTT 国产GPU 算力架构

2026-01-08

算力军备与芯片大战

英伟达发布Rubin架构推理性能×5，AMD放话四年算力提升1000倍，三星Q4利润因AI服务器暴增208%。硬件迭代速度决定模型上限，黄仁勋与苏姿丰的“算力对决”进入白热化，云厂商与初创企业同步受益。

Rubin架构 AMD算力三星利润 AI服务器算力军备

2026-01-04

Scaling Law受挑战与架构创新

DeepSeek提出流形约束超连接(mHC)改造残差连接、KAN作者再发檄文反思暴力堆参数，显示行业开始探索不依赖纯规模扩张的新架构，有望降低训练成本并提升可解释性。

架构创新 Scaling Law 残差连接 DeepSeek

2026-01-01

Scaling Law瓶颈与范式反思

Ilya、Hinton、LeCun等顶级学者公开质疑“堆算力+堆参数”路线；NUS尤洋指出300亿美元也难再训出GPT-4级跃迁，行业需回归架构创新与理论突破，预示大模型竞赛从“暴力美学”转向效率与科学驱动。

Scaling Law 算力瓶颈架构创新理论突破

2025-12-27

芯片格局再洗牌

英伟达200亿美元收购Groq、推出NVFP4低精度训练，TPU之父加入老黄阵营，GPU推理效率逼近极限，ASIC+GPU混合架构成新战场，决定未来AI算力成本与模型迭代速度。

Groq收购 NVFP4 算力架构 GPU极限

2025-12-18

腾讯大模型架构重构

腾讯成立三大核心AI部门，前OpenAI研究员姚顺雨出任首席科学家，统筹大模型基建与Agent研究，显示其追赶第一梯队的决心，将加剧国内大模型人才与生态竞争。

腾讯姚顺雨大模型组织架构 Agent

2025-12-07

Scaling终结与架构革新

Ilya、LeCun等顶尖学者公开宣告“纯靠堆参数”的Scaling Law进入收益递减期，行业开始转向原生多模态、视频推理、酶设计等新架构。NEO、Sora2、RFdiffusion2等模型验证“小算力+聪明结构”可超越传统大模型，标志AI研发范式从“越大越好”迈入“越巧越好”的新阶段，对芯片需求、创业路径和投资逻辑产生连锁冲击。

Scaling Law 原生多模态视频推理酶设计架构革新

2025-12-02

多模态大模型井喷

谷歌Gemini 3、阿里Z-Image、字节Vidi2、华为扩散语言模型等密集发布，文本-图像-视频-音频统一架构成为主流，推理成本骤降、上下文突破32K，标志生成式AI进入“原生多模态”新阶段，直接重塑内容生产、搜索与终端交互体验。

多模态统一架构上下文成本骤降内容生产

2025-11-20

小模型逆袭与架构革新

微博15亿参数VibeThinker数学基准反超6710亿DeepSeek-R1；何恺明团队提出无Tokenizer扩散范式，Just Image Transformers简化生成链路；蚂蚁OceanBase三行代码构建AI应用，显示“小即美”与架构简化正成为新趋势。

小模型扩散模型 Tokenizer 架构简化 OceanBase

2025-10-31

线性注意力架构革新

月之暗面Kimi Linear、智源Emu3.5等相继开源线性注意力或多模态世界模型，KV缓存降低75%、推理速度提升6倍，首次在性能上超越传统全注意力，标志着大模型架构从“平方代价”向“线性扩展”的关键拐点，为端侧部署与实时交互打开新空间。

线性注意力 Kimi Linear Emu3.5 推理加速架构革新

2025-10-26

Transformer架构反思与后注意力时代

“Attention”作者公开呼吁告别Transformer，叠加NeurIPS高分论文用判别式监督重塑推理LLM，凸显社区对Scaling Law边际效应的担忧，后Transformer架构与训练策略成为下一波核心竞争点。

Transformer 架构创新推理LLM 判别式监督 Scaling Law

2025-10-25

Transformer架构颠覆

Meta发布“自由Transformer”打破8年自注意力铁律，模型首次具备“潜意识”打腹稿能力；同时Transformer作者Llion Jones公开批评领域僵化。双重信号预示大模型底层架构进入换代窗口，可能重塑训练范式与硬件需求。

自由Transformer Meta 注意力机制架构换代

2025-10-23

Meta AI架构大调整

Meta AI裁员600人，LeCun团队被砍，田渊栋等核心研究员受影响，扎克伯格战略聚焦效率与产品化，引发行业对巨头AI路线再平衡关注。

Meta裁员 LeCun 田渊栋 AI战略架构调整

2025-08-21

超长上下文开源模型大战

字节跳动开源Seed-OSS-36B，512K上下文长度刷新纪录，性能对标DeepSeek；MIT提出TIM架构理论上实现“无限”推理长度，国产Avengers-Pro路由系统以19%成本逼近Gemini-2.5-Pro。超长上下文与高效推理成为开源社区新赛点，直接降低开发者门槛，加速长文档、代码、多模态应用落地。

Seed-OSS-36B 超长上下文 TIM架构开源模型低成本高性能

2025-07-17

模型架构效率革命

谷歌DeepMind提出MoR新架构，推理速度翻倍、内存减半，被视作“Transformer杀手”；潜空间推理综述提出无需Token的循环/递归框架，带宽提升2700倍，为大模型效率与规模同时升级提供双轨路径。

MoR架构潜空间推理 Transformer 效率优化带宽提升

2025-07-11

模型架构与训练新范式

北大/华为开源纯卷积DiC，速度超DiT 5倍；Inception Labs推扩散式语言模型Mercury，写代码快10倍；上交团队凭DeepSeek-R1外挂刷新“人类最后考试”国内纪录。后Transformer创新进入爆发期，训练效率与推理质量双升。

DiC 扩散模型 DeepSeek-R1 架构创新训练效率

2025-06-21

MoE与推理模型新架构

蚂蚁开源轻量级MoE推理框架Ring-lite，月之暗面发布深度研究Agent Kimi-Researcher，李飞飞团队提出“嫁接”预训练组件的新架构设计范式，显示行业在高效推理与快速实验路径上的集体突破，为低成本部署和架构创新提供基础设施。

MoE 推理优化架构设计开源 Agent

2025-06-17

模型架构与推理优化

谷歌承认Transformer注意力机制瓶颈，计划重写架构；R-KV把KV Cache压至10%无损推理；CMU&英伟达Multiverse实现原生并行出token；多路径创新共同追求更长上下文、更低功耗、更高吞吐。

Transformer 注意力 KV Cache 并行推理架构革新

2025-06-15

混合架构新范式崛起

康奈尔Eso-LM将扩散模型与自回归融合，速度提升65倍，英伟达下注；Transformer“混血”引发对自回归范式的再思考，或成通往AGI的又一技术路线，学术与资本同时加注。

扩散语言模型混合架构自回归英伟达 Transformer

# 架构