2025-09-29
AI 基础设施与算力成本革命
浪潮信息实现 8.9 ms 推理、1 元/百万 token 新纪录;华为 CloudMatrix384 超节点第一时间支持 DeepSeek V3.2;FlashAttention 作者预言 GPU 垄断三年内终结,硬件-软件协同优化正把 AI 推理推向“白菜价”时代。
2025-08-26
英伟达机器人算力革命
英伟达正式量产Jetson Thor机器人专用芯片,AI算力提升7.5倍,售价2.5万元,宇树、银河通用已首批搭载;同步开源FlashAttention-4,原生支持Blackwell GPU,推理吞吐最高提速53.6倍,加固“算力+软件”护城河。
2025-07-11
英伟达市值破4万亿
英伟达成全球首家市值超4万亿美元公司,H100再获FlashAttention作者新优化,提速33%-50%无需CUDA。黄仁勋将赴北京与特朗普会面,凸显AI芯片作为国家战略资源的核心地位,进一步巩固算力霸权。
2024-07-12
Transformer核心优化突破
FlashAttention-3与LowMemoryBP相继发布,H100利用率飙至75%,显存与速度兼得;训练GPT-2成本跌破700美元,反向传播效率再升级,为大模型普及与端侧部署奠定工程基础。
2024-01-10
大模型落地工程化提速
NVIDIA专家分享LLM落地全流程、RAG架构回顾、FlashAttention训练加速等技术帖密集出现,反映产业焦点从“训练”转向“部署与运维”,工程化最佳实践成为刚需。
2024-01-02
大模型架构革新
2024年初,华为盘古π、Mamba等新架构相继亮相,试图以线性复杂度替代Transformer,解决特征塌陷与长序列瓶颈;同时MoE+FlashAttention2、LoRA等工程优化让10行代码即可实现千亿级模型的高效推理与微调,标志大模型进入“后Transformer”竞争时代。