2026-01-06
大模型开源与推理新范式
DeepSeek-R1、Falcon H1R 7B、华为openPangu-VL-7B等轻量级开源模型轮番登顶榜单,以7B-30B参数实现千亿级性能,打破“唯规模论”;字节DLCM、清华LingoEDU提出概念级推理与结构化预处理,准确率最高提升51%,推动低成本、高可靠的行业微调落地,开源生态进入“小而强”时代。
2025-12-08
小模型逆袭与推理优化
英伟达、腾讯、DeepMind等接连发布8B-406B参数的小/中模型,通过工具调度、推理优化在单任务成本、速度上碾压GPT-5,显示“小而精”路线正重塑大模型竞争规则,降低落地门槛。
2025-10-05
推理效率优化新进展
Meta提出新方法将大模型思维链推理token减少46%,显著降低长链推理成本,为端侧部署和实时应用打开空间。
2025-09-29
DeepSeek V3.2 稀疏注意力突破
DeepSeek 连续发布 V3.2-Exp 并开源 DSA 稀疏注意力机制,华为云、寒武纪第一时间完成适配,推理成本再降,国产大模型生态集体跟进,标志国产大模型从参数竞赛转向架构与系统级协同优化,对全球闭源模型形成技术对冲。
2025-08-27
超高效推理与架构革新
NVIDIA Jet-Nemotron、谷歌Gemini 2.5 Flash Image、华为云384超节点等集中发布,通过FP4/FP8混合精度、后NAS架构、超节点Scale-Up把推理成本砍90%以上,吞吐提升数十倍,标志大模型进入“低价高并发”时代,将直接重塑云厂商定价、AI应用商业模式与边缘部署格局。
2025-08-12
推理效率与硬件优化
华为UCM、英特尔LLM-Scaler1.0、OpenAI gpt-oss MXFP4量化等技术将120B模型压入80GB卡,推理成本降75%、速度提4倍;高通宣布20B级gpt-oss可在骁龙终端离线跑,边缘大模型进入实用化,缓解云端算力瓶颈,推动端侧AI普惠。
2025-06-21
MoE与推理模型新架构
蚂蚁开源轻量级MoE推理框架Ring-lite,月之暗面发布深度研究Agent Kimi-Researcher,李飞飞团队提出“嫁接”预训练组件的新架构设计范式,显示行业在高效推理与快速实验路径上的集体突破,为低成本部署和架构创新提供基础设施。
2025-05-21
端侧与长文本优化
vivo EdgeInfinite算法在手机10GB内存内跑128K长文本,华为昇腾让DeepSeek MoE推理延迟降10%,面壁智能再获数亿元融资主攻「端侧大脑」,京东云五大AI营销产品限时免费,端侧大模型与高效推理成为国产硬件落地关键。
2025-05-20
国产芯片+大模型性能突破
华为昇腾联合DeepSeek实现MoE万亿模型推理延迟再降10%,Atlas超节点单卡Decode吞吐达1920 Tokens/s,性能超越英伟达Hopper,彻底摆脱对海外GPU依赖,为国产算力底座树立新标杆。
2025-05-05
小模型推理革命
微软Phi-4系列以≤14B参数实现媲美甚至超越大模型的数学与推理表现,3.8B版本即可击败DeepSeek-R1蒸馏8B,宣告“本地可跑”的高性能时代到来,将重塑端侧AI、边缘部署与成本结构,引发模型瘦身与高效训练新赛道。
2025-03-10
训练效率与推理优化突破
字节COMET、CMU LCPO、LightTransfer、GRPO等新方法将大模型训练/推理成本砍半甚至提速1.7倍,提示-可控思考、KV缓存压缩等技术进入实用阶段,降低行业门槛。
2025-03-03
DeepSeek生态全面爆发
DeepSeek-R1被中信特钢、阿里国际站Accio、腾讯元宝、字节Trae等20余款产品接入,并启动开源周释放推理优化系统,形成低成本、高智商的国产开源生态,倒逼全球模型降价。
2025-02-27
DeepSeek开源与性能优化
DeepSeek连续开源FlashMLA、DeepEP、DeepGEMM等核心库,实现FP8矩阵乘法1350 TFLOPS,推理提速25倍、成本降20倍;API夜间2.5折,R2或5月前发布,带动国产芯片需求激增,确立低成本高性能开源新标杆。
2025-02-13
DeepSeek生态全面爆发
国产大模型DeepSeek-R1/V3在免费化、本地化、行业落地三线并进:百度、腾讯、荣耀、顺丰等头部厂商集中接入;清华、字节、上海AI Lab推出低成本推理与蒸馏方案;巴黎峰会热议其开源高效模式,估值被曝1500亿美元,成为挑战OpenAI的现象级力量。
2025-02-13
模型效率与小参数逆袭
清华、北大、普林斯顿、上海AI Lab等相继提出分层RL、Test-Time Scaling、UltraMem稀疏架构等新方法,实现1B-32B小模型在数学、推理任务上超越405B-671B巨无霸,推理成本最高降83%,预示“小即是大”的新Scaling范式。
2025-02-01
高效训练与硬件协同创新
微软首发FP4训练框架效果对标BF16,谷歌、阿里、华为云等同步优化推理服务,表明在摩尔定律放缓背景下,算法-硬件协同正成为大模型降本增效的新主线。
2025-01-24
AI基础设施与算力竞速
OpenAI“星际之门”计划牵手甲骨文、信实集团拟建世界最大AI数据中心,印度、美国争夺万卡集群;同时Pipeshift推理引擎、FlashInfer、OpenVINO-vLLM等优化方案将GPU利用率提升75%,显存接近零浪费。算力军备赛与效率革命同步升级,为大模型普及提供底层支撑。
2024-11-17
大模型训练与推理效率提升
谷歌DeepMind提出过程奖励模型PRM+PAV,将数学推理准确率提升8%;同时“删除冗余token”策略让视频大模型训练时间减少30%,显示后训练与模型压缩正成为性能与成本优化关键路径。
2024-10-14
大模型训练与推理新范式
REPA、OpenR、LightRAG等研究提出全新训练与检索框架,扩散模型与RAG成本骤降,推理能力显著增强,为行业降本增效提供关键支撑。