2025-12-09
AI硬件自主化加速
谷歌第七代TPU性能4倍提升、摩尔线程将发新一代GPU、英伟达CUDA 13.1用Python即可写内核,中美芯片与框架竞争进入“性能+易用”双线并行阶段,降低开发者门槛。
2025-07-18
中美芯片与模型博弈
黄仁勋年内三度访华点赞DeepSeek、Qwen、Kimi;苹果MLX框架主动兼容CUDA;特斯拉Dojo2即将量产,性能直指英伟达,中美在算力、框架、模型三条线全面竞速。
2025-06-01
AI自生成内核颠覆框架
斯坦福华人团队用纯CUDA-C让AI自写GPU内核,性能最高提升4倍,直接超越PyTorch专家手写版本,证明AI可自动优化底层算子,为深度学习框架与编译器开辟“自进化”新范式,或重塑高性能计算开发流程。
2025-02-21
高性能AI编译革命
Sakana AI推出全球首个“AI CUDA工程师”,自动把PyTorch代码转成优化CUDA内核,速度提升10-100倍,Together AI再获3亿美元融资,深推理模型引爆GPU算力新需求。
2025-02-01
模型蒸馏与护城河重构
多项研究指出顶级模型普遍依赖蒸馏,DeepSeek绕过CUDA直写PTX优化,谷歌、北大等提出新协作或概率框架,暗示“算力+CUDA”护城河松动,训练与推理成本有望再降一个量级。
2025-01-30
DeepSeek生态冲击波
DeepSeek-R1及其底层优化细节持续发酵:绕过CUDA、FP4训练、R1-Zero纯强化学习等创新,被视作对英伟达生态与OpenAI o1的直接挑战,引发市值震荡、硅谷围剿与国产模型效率革命讨论,成为2025开年最具冲击力的技术事件。
2024-09-10
芯片与算力格局生变
AMD放弃旗舰游戏GPU转向统一AI架构,Cerebras推最快推理芯片挑战英伟达,Apache Cassandra 5.0原生AI索引,反映后CUDA生态加速分化,推理侧算力需求催生新硬件机会。
2024-09-09
国产芯片与算力突围
燧原科技借“上云”把芯片验证周期从两周压到30分钟;PyTorch官方推Triton后端,试图摆脱CUDA垄断;Gartner预测GPU市场五年增10倍超4000亿美元。国产算力链加速闭环,降低大模型训练与推理成本成为核心竞争点。