2026-05-31

大模型效率与推理优化

针对大模型部署成本高、推理效率低的问题,MIT注意力匹配技术实现内存暴降50倍,抽象符号替代思维链压缩成本11倍,以及数据质量优化策略,为模型轻量化部署和高效推理提供关键技术路径。
2026-05-25

模型优化与AI基础设施

面壁智能联合清华发布中国首个1.58-bit大模型BitCPM-CANN,实现低比特训练突破;清华联合腾讯混元获MLSys MoE推理挑战赛冠军,NPU推理提速4.1倍;得州拟建2.5吉瓦核电燃气混合电站应对AI用电激增;EdgeRazor实现解码加速15倍。模型压缩、推理优化与能源基础设施成为AI规模化关键支撑。
2026-05-20

AI基础设施与算力创新

阿里发布真武M890超节点服务器应对Agentic时代算力需求,英特尔曝光AI推理GPU新品,趋境科技建设高品质Token生产基础设施。异构计算与超节点架构成为趋势,支撑大模型训练与推理的硬件创新持续突破,为AI应用爆发提供底层支撑。
2026-02-11

算力与芯片突围

字节SeedChip计划十万颗量产、讯飞全国产算力星火X2、美国能源部D-CHAG降内存75%等进展,凸显中美在AI算力“卡脖子”与自主创新双线竞速;云厂商与超算中心通过架构级优化缓解GPU+电力瓶颈,决定大模型迭代节奏。
2026-01-06

大模型开源与推理新范式

DeepSeek-R1、Falcon H1R 7B、华为openPangu-VL-7B等轻量级开源模型轮番登顶榜单,以7B-30B参数实现千亿级性能,打破“唯规模论”;字节DLCM、清华LingoEDU提出概念级推理与结构化预处理,准确率最高提升51%,推动低成本、高可靠的行业微调落地,开源生态进入“小而强”时代。
2025-12-08

小模型逆袭与推理优化

英伟达、腾讯、DeepMind等接连发布8B-406B参数的小/中模型,通过工具调度、推理优化在单任务成本、速度上碾压GPT-5,显示“小而精”路线正重塑大模型竞争规则,降低落地门槛。
2025-10-05

推理效率优化新进展

Meta提出新方法将大模型思维链推理token减少46%,显著降低长链推理成本,为端侧部署和实时应用打开空间。
2025-09-29

DeepSeek V3.2 稀疏注意力突破

DeepSeek 连续发布 V3.2-Exp 并开源 DSA 稀疏注意力机制,华为云、寒武纪第一时间完成适配,推理成本再降,国产大模型生态集体跟进,标志国产大模型从参数竞赛转向架构与系统级协同优化,对全球闭源模型形成技术对冲。
2025-08-27

超高效推理与架构革新

NVIDIA Jet-Nemotron、谷歌Gemini 2.5 Flash Image、华为云384超节点等集中发布,通过FP4/FP8混合精度、后NAS架构、超节点Scale-Up把推理成本砍90%以上,吞吐提升数十倍,标志大模型进入“低价高并发”时代,将直接重塑云厂商定价、AI应用商业模式与边缘部署格局。
2025-08-12

推理效率与硬件优化

华为UCM、英特尔LLM-Scaler1.0、OpenAI gpt-oss MXFP4量化等技术将120B模型压入80GB卡,推理成本降75%、速度提4倍;高通宣布20B级gpt-oss可在骁龙终端离线跑,边缘大模型进入实用化,缓解云端算力瓶颈,推动端侧AI普惠。
2025-06-21

MoE与推理模型新架构

蚂蚁开源轻量级MoE推理框架Ring-lite,月之暗面发布深度研究Agent Kimi-Researcher,李飞飞团队提出“嫁接”预训练组件的新架构设计范式,显示行业在高效推理与快速实验路径上的集体突破,为低成本部署和架构创新提供基础设施。
2025-05-21

端侧与长文本优化

vivo EdgeInfinite算法在手机10GB内存内跑128K长文本,华为昇腾让DeepSeek MoE推理延迟降10%,面壁智能再获数亿元融资主攻「端侧大脑」,京东云五大AI营销产品限时免费,端侧大模型与高效推理成为国产硬件落地关键。
2025-05-20

国产芯片+大模型性能突破

华为昇腾联合DeepSeek实现MoE万亿模型推理延迟再降10%,Atlas超节点单卡Decode吞吐达1920 Tokens/s,性能超越英伟达Hopper,彻底摆脱对海外GPU依赖,为国产算力底座树立新标杆。
2025-05-05

小模型推理革命

微软Phi-4系列以≤14B参数实现媲美甚至超越大模型的数学与推理表现,3.8B版本即可击败DeepSeek-R1蒸馏8B,宣告“本地可跑”的高性能时代到来,将重塑端侧AI、边缘部署与成本结构,引发模型瘦身与高效训练新赛道。
2025-03-10

训练效率与推理优化突破

字节COMET、CMU LCPO、LightTransfer、GRPO等新方法将大模型训练/推理成本砍半甚至提速1.7倍,提示-可控思考、KV缓存压缩等技术进入实用阶段,降低行业门槛。
2025-03-03

DeepSeek生态全面爆发

DeepSeek-R1被中信特钢、阿里国际站Accio、腾讯元宝、字节Trae等20余款产品接入,并启动开源周释放推理优化系统,形成低成本、高智商的国产开源生态,倒逼全球模型降价。
2025-02-27

DeepSeek开源与性能优化

DeepSeek连续开源FlashMLA、DeepEP、DeepGEMM等核心库,实现FP8矩阵乘法1350 TFLOPS,推理提速25倍、成本降20倍;API夜间2.5折,R2或5月前发布,带动国产芯片需求激增,确立低成本高性能开源新标杆。
2025-02-13

DeepSeek生态全面爆发

国产大模型DeepSeek-R1/V3在免费化、本地化、行业落地三线并进:百度、腾讯、荣耀、顺丰等头部厂商集中接入;清华、字节、上海AI Lab推出低成本推理与蒸馏方案;巴黎峰会热议其开源高效模式,估值被曝1500亿美元,成为挑战OpenAI的现象级力量。
2025-02-13

模型效率与小参数逆袭

清华、北大、普林斯顿、上海AI Lab等相继提出分层RL、Test-Time Scaling、UltraMem稀疏架构等新方法,实现1B-32B小模型在数学、推理任务上超越405B-671B巨无霸,推理成本最高降83%,预示“小即是大”的新Scaling范式。
2025-02-01

高效训练与硬件协同创新

微软首发FP4训练框架效果对标BF16,谷歌、阿里、华为云等同步优化推理服务,表明在摩尔定律放缓背景下,算法-硬件协同正成为大模型降本增效的新主线。