2025-11-29
后训练范式革新
中兴通讯AIM团队提出GRPO-only方法,仅用难样本、无需SFT即可在多模态基准上刷新SOTA,为行业提供数据高效、成本低的后训练新范式,降低大模型迭代门槛。
2025-08-03
3D生成与效率优化
Ultra3D框架实现“一键精细到毛发”的3D资产生成,腾讯混元开源MixGRPO将训练时间减半而性能提升,显示AIGC在高质量内容与训练效率两端同步突破,加速影视、游戏落地。
2025-03-10
训练效率与推理优化突破
字节COMET、CMU LCPO、LightTransfer、GRPO等新方法将大模型训练/推理成本砍半甚至提速1.7倍,提示-可控思考、KV缓存压缩等技术进入实用阶段,降低行业门槛。
2025-03-09
DeepSeek生态加速渗透
SimilarWeb报告显示DeepSeek占全球生成式AI流量9.6%跃居第二;训练框架GRPO、开源方案及多模态工具链密集发布,结合国产Agent平台落地,DeepSeek正成为开发者首选基座模型之一。
2025-03-08
小模型推理突破
Qwen-32B凭GRPO算法在复杂推理任务上击败DeepSeek-R1、o3-mini,训练成本降100倍;7B蒸馏模型在MIT积分题大赛获93分,显示小参数+强化学习即可达顶尖推理性能,为端侧和低成本部署打开空间。