注意力机制 - AI话题

2025-10-25

Transformer架构颠覆

Meta发布“自由Transformer”打破8年自注意力铁律，模型首次具备“潜意识”打腹稿能力；同时Transformer作者Llion Jones公开批评领域僵化。双重信号预示大模型底层架构进入换代窗口，可能重塑训练范式与硬件需求。

自由Transformer Meta 注意力机制架构换代

2025-08-16

算法机制可解释进展

斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变，为理解大模型推理、涌现与幻觉提供理论框架，有望指导更安全可控的模型设计。

可解释性注意力机制相变推理理论框架

2025-07-08

模型架构与训练效率革新

清华SageAttention3实现5倍注意力提速，循环模型500步突破256k长度泛化，基于能量Transformer提升35%性能，后训练与量化技术成为缓解算力瓶颈的关键路径。

注意力机制循环模型量化长文本训练效率

2025-06-19

模型效率与数据优化

谷歌DataRater自动筛除75%低质数据，弗吉尼亚理工LensLLM选型框架降本90%，普林斯顿&Meta线性注意力机制提速15倍，共同指向“更少数据、更低算力、更高性能”的新训练范式。

数据筛选模型选型效率优化注意力机制训练范式

2025-06-08

后Transformer架构革新

谷歌提出“注意力+保留门”新架构，清华团队三连击改进注意力机制，参数减少40%、训练速度提升5-8倍，显示Transformer统治地位首次遭遇系统性挑战，底层范式换代窗口已开启。

新架构注意力机制 Transformer 训练效率模型范式

2025-06-02

大模型高效推理与量化

微软BitNet v2实现原生4bit量化几乎无损，Mamba作者提出Grouped-Tied Attention专为推理加速，两条路线同步把大模型部署成本砍半，为端侧和云端规模化落地扫清算力障碍，行业进入“低价高密”新阶段。

量化推理加速 BitNet 注意力机制部署成本

2025-01-16

长序列架构革新

谷歌Titans、MiniMax Lightning Attention、姚期智团队TPA等新架构通过引入长期记忆、动态张量分解或线性注意力，把上下文窗口推高至400万token，同时显存降低90%，为长文档、多轮对话及科学计算打开新空间。

长序列 Transformer替代内存优化注意力机制

2024-11-03

大模型推理效率突破

中科大提出Ada-KV自适应缓存压缩，微软清华借降噪思路升级注意力，RAG引入块状注意力，显著降低延迟与显存，为千亿级模型落地铺平道路。

KV缓存注意力机制推理加速 RAG

2024-10-10

模型效率与架构创新

清华&微软Differential Transformer将注意力精度提升30%，NeurIPS 2024 SparseLLM实现全局剪枝，MIT SciAgents自动科研，多路研究共探大模型降本增效与科学发现自动化。

Transformer 模型压缩 SciAgents 稀疏化注意力机制

2024-05-27

Transformer架构再进化

DCFormer、OmniGlue、傅立叶微调等多项ICML 2024研究提出对Transformer注意力、微调与匹配模块的创新改造，显著降低算力或提升泛化，为下一代大模型降本增效提供新路径。

Transformer 注意力机制模型效率 ICML2024

2024-01-18

模型效率与部署优化

AMC 自动压缩、Lightning Attention-2、DCNv4 等新技术在 CNN 与 Transformer 上实现 40% 无损加速、无限序列长度恒定算力、显存占用减半，为大模型端侧落地与实时应用铺平道路。

模型压缩注意力机制推理加速端侧部署 DCNv4

2024-01-07

模型架构与检测优化

YOLOv5+混合注意力在工业缺陷检测再提4.3%精度、清华GitAgent让智能体自主扩展GitHub工具，表明“经典架构+微小创新”依旧有效。研究聚焦于垂直场景极致优化与工具调用能力，为边缘AI和自动化开发提供可复用范式。

YOLO 注意力机制缺陷检测智能体 GitHub

AI快开门

发现AI的无限可能

# 注意力机制