FlashAttention - AI话题

2025-09-29

浪潮信息实现 8.9 ms 推理、1 元/百万 token 新纪录；华为 CloudMatrix384 超节点第一时间支持 DeepSeek V3.2；FlashAttention 作者预言 GPU 垄断三年内终结，硬件-软件协同优化正把 AI 推理推向“白菜价”时代。

2025-08-26

英伟达正式量产Jetson Thor机器人专用芯片，AI算力提升7.5倍，售价2.5万元，宇树、银河通用已首批搭载；同步开源FlashAttention-4，原生支持Blackwell GPU，推理吞吐最高提速53.6倍，加固“算力+软件”护城河。

2025-07-11

英伟达成全球首家市值超4万亿美元公司，H100再获FlashAttention作者新优化，提速33%-50%无需CUDA。黄仁勋将赴北京与特朗普会面，凸显AI芯片作为国家战略资源的核心地位，进一步巩固算力霸权。

2024-07-12

FlashAttention-3与LowMemoryBP相继发布，H100利用率飙至75%，显存与速度兼得；训练GPT-2成本跌破700美元，反向传播效率再升级，为大模型普及与端侧部署奠定工程基础。

2024-01-10

NVIDIA专家分享LLM落地全流程、RAG架构回顾、FlashAttention训练加速等技术帖密集出现，反映产业焦点从“训练”转向“部署与运维”，工程化最佳实践成为刚需。

2024-01-02

2024年初，华为盘古π、Mamba等新架构相继亮相，试图以线性复杂度替代Transformer，解决特征塌陷与长序列瓶颈；同时MoE+FlashAttention2、LoRA等工程优化让10行代码即可实现千亿级模型的高效推理与微调，标志大模型进入“后Transformer”竞争时代。

AI快开门