AI快开门

发现最好的AI工具

2026-01-06

大模型开源与推理新范式

DeepSeek-R1、Falcon H1R 7B、华为openPangu-VL-7B等轻量级开源模型轮番登顶榜单,以7B-30B参数实现千亿级性能,打破“唯规模论”;字节DLCM、清华LingoEDU提出概念级推理与结构化预处理,准确率最高提升51%,推动低成本、高可靠的行业微调落地,开源生态进入“小而强”时代。
2025-12-08

小模型逆袭与推理优化

英伟达、腾讯、DeepMind等接连发布8B-406B参数的小/中模型,通过工具调度、推理优化在单任务成本、速度上碾压GPT-5,显示“小而精”路线正重塑大模型竞争规则,降低落地门槛。
2025-10-05

推理效率优化新进展

Meta提出新方法将大模型思维链推理token减少46%,显著降低长链推理成本,为端侧部署和实时应用打开空间。
2025-09-29

DeepSeek V3.2 稀疏注意力突破

DeepSeek 连续发布 V3.2-Exp 并开源 DSA 稀疏注意力机制,华为云、寒武纪第一时间完成适配,推理成本再降,国产大模型生态集体跟进,标志国产大模型从参数竞赛转向架构与系统级协同优化,对全球闭源模型形成技术对冲。
2025-08-27

超高效推理与架构革新

NVIDIA Jet-Nemotron、谷歌Gemini 2.5 Flash Image、华为云384超节点等集中发布,通过FP4/FP8混合精度、后NAS架构、超节点Scale-Up把推理成本砍90%以上,吞吐提升数十倍,标志大模型进入“低价高并发”时代,将直接重塑云厂商定价、AI应用商业模式与边缘部署格局。
2025-08-12

推理效率与硬件优化

华为UCM、英特尔LLM-Scaler1.0、OpenAI gpt-oss MXFP4量化等技术将120B模型压入80GB卡,推理成本降75%、速度提4倍;高通宣布20B级gpt-oss可在骁龙终端离线跑,边缘大模型进入实用化,缓解云端算力瓶颈,推动端侧AI普惠。
2025-06-21

MoE与推理模型新架构

蚂蚁开源轻量级MoE推理框架Ring-lite,月之暗面发布深度研究Agent Kimi-Researcher,李飞飞团队提出“嫁接”预训练组件的新架构设计范式,显示行业在高效推理与快速实验路径上的集体突破,为低成本部署和架构创新提供基础设施。
2025-05-21

端侧与长文本优化

vivo EdgeInfinite算法在手机10GB内存内跑128K长文本,华为昇腾让DeepSeek MoE推理延迟降10%,面壁智能再获数亿元融资主攻「端侧大脑」,京东云五大AI营销产品限时免费,端侧大模型与高效推理成为国产硬件落地关键。
2025-05-20

国产芯片+大模型性能突破

华为昇腾联合DeepSeek实现MoE万亿模型推理延迟再降10%,Atlas超节点单卡Decode吞吐达1920 Tokens/s,性能超越英伟达Hopper,彻底摆脱对海外GPU依赖,为国产算力底座树立新标杆。
2025-05-05

小模型推理革命

微软Phi-4系列以≤14B参数实现媲美甚至超越大模型的数学与推理表现,3.8B版本即可击败DeepSeek-R1蒸馏8B,宣告“本地可跑”的高性能时代到来,将重塑端侧AI、边缘部署与成本结构,引发模型瘦身与高效训练新赛道。
2025-03-10

训练效率与推理优化突破

字节COMET、CMU LCPO、LightTransfer、GRPO等新方法将大模型训练/推理成本砍半甚至提速1.7倍,提示-可控思考、KV缓存压缩等技术进入实用阶段,降低行业门槛。
2025-03-03

DeepSeek生态全面爆发

DeepSeek-R1被中信特钢、阿里国际站Accio、腾讯元宝、字节Trae等20余款产品接入,并启动开源周释放推理优化系统,形成低成本、高智商的国产开源生态,倒逼全球模型降价。
2025-02-27

DeepSeek开源与性能优化

DeepSeek连续开源FlashMLA、DeepEP、DeepGEMM等核心库,实现FP8矩阵乘法1350 TFLOPS,推理提速25倍、成本降20倍;API夜间2.5折,R2或5月前发布,带动国产芯片需求激增,确立低成本高性能开源新标杆。
2025-02-13

DeepSeek生态全面爆发

国产大模型DeepSeek-R1/V3在免费化、本地化、行业落地三线并进:百度、腾讯、荣耀、顺丰等头部厂商集中接入;清华、字节、上海AI Lab推出低成本推理与蒸馏方案;巴黎峰会热议其开源高效模式,估值被曝1500亿美元,成为挑战OpenAI的现象级力量。
2025-02-13

模型效率与小参数逆袭

清华、北大、普林斯顿、上海AI Lab等相继提出分层RL、Test-Time Scaling、UltraMem稀疏架构等新方法,实现1B-32B小模型在数学、推理任务上超越405B-671B巨无霸,推理成本最高降83%,预示“小即是大”的新Scaling范式。
2025-02-01

高效训练与硬件协同创新

微软首发FP4训练框架效果对标BF16,谷歌、阿里、华为云等同步优化推理服务,表明在摩尔定律放缓背景下,算法-硬件协同正成为大模型降本增效的新主线。
2025-01-24

AI基础设施与算力竞速

OpenAI“星际之门”计划牵手甲骨文、信实集团拟建世界最大AI数据中心,印度、美国争夺万卡集群;同时Pipeshift推理引擎、FlashInfer、OpenVINO-vLLM等优化方案将GPU利用率提升75%,显存接近零浪费。算力军备赛与效率革命同步升级,为大模型普及提供底层支撑。
2024-11-17

大模型训练与推理效率提升

谷歌DeepMind提出过程奖励模型PRM+PAV,将数学推理准确率提升8%;同时“删除冗余token”策略让视频大模型训练时间减少30%,显示后训练与模型压缩正成为性能与成本优化关键路径。
2024-10-14

大模型训练与推理新范式

REPA、OpenR、LightRAG等研究提出全新训练与检索框架,扩散模型与RAG成本骤降,推理能力显著增强,为行业降本增效提供关键支撑。
2024-09-30

英伟达2.5亿美元收购OctoAI

英伟达以约2.5亿美元收购西雅图初创公司OctoAI,强化企业级生成式AI模型部署与推理优化能力。OctoAI的编译器与Runtime技术可帮助客户高效运行多模型、降本增效,交易完成后将并入英伟达企业AI软件栈,进一步锁定高端企业市场。