GRPO - AI话题 - AI快开门

2025-11-29

中兴通讯AIM团队提出GRPO-only方法，仅用难样本、无需SFT即可在多模态基准上刷新SOTA，为行业提供数据高效、成本低的后训练新范式，降低大模型迭代门槛。

2025-08-03

Ultra3D框架实现“一键精细到毛发”的3D资产生成，腾讯混元开源MixGRPO将训练时间减半而性能提升，显示AIGC在高质量内容与训练效率两端同步突破，加速影视、游戏落地。

2025-03-10

字节COMET、CMU LCPO、LightTransfer、GRPO等新方法将大模型训练/推理成本砍半甚至提速1.7倍，提示-可控思考、KV缓存压缩等技术进入实用阶段，降低行业门槛。

2025-03-09

SimilarWeb报告显示DeepSeek占全球生成式AI流量9.6%跃居第二；训练框架GRPO、开源方案及多模态工具链密集发布，结合国产Agent平台落地，DeepSeek正成为开发者首选基座模型之一。

2025-03-08

Qwen-32B凭GRPO算法在复杂推理任务上击败DeepSeek-R1、o3-mini，训练成本降100倍；7B蒸馏模型在MIT积分题大赛获93分，显示小参数+强化学习即可达顶尖推理性能，为端侧和低成本部署打开空间。

2025-02-10

清华&CMU证明无需SFT仅靠RL即可涌现长思维链；DeepSeek-R1用GRPO把显存暴降80%，7GB本地可跑671B满血版；OpenAI已内测GPT-4.5，编程能力年底冲击人类TOP1，推理范式进入低成本、高可解释新阶段。

# GRPO