2025-12-18
端侧与轻量化模型
苹果开源SHARP 1秒照片转3D、华科大教授揭秘手机端大模型剪枝量化技术,配合流式数据集百倍提速,端侧AI在性能与效率上双重突破,为下一代智能终端铺路。
2025-12-11
中国模型轻量化与落地
北大提出2比特复数量化框架,手机端流畅运行大模型;阿里妈妈生成式召回模型为搜索广告带来8%营收增长;美图、美团、蚂蚁数科成立AI创新工作室或引入前字节大模型负责人,聚焦多模态、智能体及行业解决方案。国产模型在压缩效率、场景落地、人才流动上形成闭环,加速边缘部署与商业变现。
2025-11-04
AI+金融交易:模型直接下场炒股
阿里Qwen3-Max以22%收益夺得全球首届AI投资赛冠军,港大DeepSeek开源交易模型一周获8k星,同期AI炒币大赛Qwen、DeepSeek盈利,GPT-5巨亏,验证大模型在量化策略、情绪解析上的差异化能力,金融场景成为模型效果试金石。
2025-11-02
生成式推荐系统新范式
傅聪团队提出OnePiece通用生成式推荐模型,兼顾效果与成本:相比直接拿LLM做推荐,新范式以轻量化生成式训练实现毫秒级延迟、降低50%以上推理开销,为电商、短视频、广告等高频场景的大规模落地扫清障碍,有望重塑推荐工业界技术栈。
2025-10-18
轻量化模型与端侧OCR
百度0.9B PaddleOCR-VL横扫4项SOTA并登顶Hugging Face,证明“小模型+多模态”在文档解析场景已可替代大模型,实现PC级本地部署。端侧轻量化趋势将降低开发者门槛,推动OCR、文档理解在政企、教育、金融场景快速渗透。
2025-10-11
端侧小模型与手机AI创新
Liquid AI发布8B参数仅激活1.5B的LFM2-8B-A1B,手机跑出4B级速度;vivo首发AIOS,Chrome/Gemini嵌入智能网购,显示“轻量化+场景化”正成为端侧AI竞争新焦点,推动个人智能体验升级。
2025-08-18
大模型技术突破与开源
国内外头部厂商密集发布新一代大模型:百度GenFlow2.0生成速度提升10倍,谷歌开源0.27B Gemma 3以“小模型”思路缓解算力焦虑,Meta推出无监督DINOv3,上交&UCSD开源扩散大模型D2F吞吐量超LLaMA3。技术路线呈现“轻量化+开源”趋势,降低开发者门槛,加速生态繁荣。
2025-08-17
大模型轻量化与量化突破
北大提出首个复数域2比特大模型iFairy,把权重压缩到1/8且推理仅需加减法,手机可跑;Meta开源70亿参数DINOv3,自监督视觉模型刷新SOTA。两者共同标志“大模型小型化”进入实用拐点,为端侧部署、低成本落地打开空间。
2025-08-12
推理效率与硬件优化
华为UCM、英特尔LLM-Scaler1.0、OpenAI gpt-oss MXFP4量化等技术将120B模型压入80GB卡,推理成本降75%、速度提4倍;高通宣布20B级gpt-oss可在骁龙终端离线跑,边缘大模型进入实用化,缓解云端算力瓶颈,推动端侧AI普惠。
2025-07-15
国产Kimi K2开源崛起
月之暗面开源Kimi K2模型,以DeepSeek V3架构在OpenRouter榜单超越xAI Grok,Unsloth推出1.8bit极量化版降低90%部署成本,标志国产大模型首次在开源生态占据头部,牵动全球模型竞争格局。
2025-07-12
扩散模型量化加速突破
港科大、北航、莫纳什联合提出TFMQ-DM框架,首次实现4-bit无损压缩+6倍推理加速,通过维护时间特征解决扩散模型量化敏感难题,为端侧高清生成铺平道路,入选TPAMI'25。
2025-07-08
模型架构与训练效率革新
清华SageAttention3实现5倍注意力提速,循环模型500步突破256k长度泛化,基于能量Transformer提升35%性能,后训练与量化技术成为缓解算力瓶颈的关键路径。
2025-06-23
教育专用大模型轻量化
网易有道开源14B参数“子曰3”,以低成本实现数学推理超越更大模型,为教育普惠提供轻量高性能方案,带动AI教辅、公平化学习新趋势。
2025-06-02
大模型高效推理与量化
微软BitNet v2实现原生4bit量化几乎无损,Mamba作者提出Grouped-Tied Attention专为推理加速,两条路线同步把大模型部署成本砍半,为端侧和云端规模化落地扫清算力障碍,行业进入“低价高密”新阶段。
2025-05-27
国产大模型技术突破
阿里、字节、美团等国内厂商在长文本推理、多模态融合、低成本量化等方向集中发布新模型或技术,性能对标GPT-4o/Claude-3.7,并率先通过医学职称考试、高考志愿生成等严苛场景验证,标志着国产大模型从“可用”走向“好用”,为行业落地和生态自主奠定新基线。
2025-05-27
硬件与算力生态大整合
“星际之门”40万GPU超算、海光+中科曙光400亿国产算力航母、英伟达再推中国特供GPU,显示中美算力竞赛进入“堆卡+自研”双线并行;华为7倍无损压缩量化、6500美元特供卡等方案则试图在出口管制下重塑成本曲线,决定大模型普及速度。
2025-04-30
端侧与低成本推理方案
Unsloth推Qwen3动态量化2.0、NVIDIA NIM Operator 2.0、14.9万元DeepSeek一体机及Simular Mac本地助手相继发布,目标在功耗、成本与隐私约束下把大模型塞进笔记本甚至DOS系统,端侧AI进入“平民化”拐点。
2025-04-21
轻量化与端侧AI突围
微软BitNet b1.58 2B4T、Intel AI Playground、Gemma 3 QAT等原生低比特模型开源,0.4GB内存+单CPU即可跑2B参数,性能媲美全精度;Arc核显、3090消费级显卡成为边缘AI新算力,推动PC、智能音箱、IoT设备本地跑大模型,降低云成本与隐私风险,加速AI普惠。
2025-04-20
开源大模型与工具链爆发
阿里通义万相Wan2.1、复旦-字节SimpleAR、谷歌Gemma 3 QAT版等相继开源,覆盖视频生成、图像生成、量化推理全链路,大幅降低开发者门槛,标志国产与海外巨头同步进入“开源即基础设施”阶段,将加速下游应用创新与生态分化。