后训练 - AI话题 - AI快开门

2026-03-15

底层架构与评测革新

哈工深提出模长感知线性注意力，显存直降92.3%；MIT新算法挑战“后训练RL已死”共识；CVPR 2026论文用视觉Token变化量无损加速VLM 1.87倍；arXiv宣布脱离康奈尔独立并招聘CEO，底层算法、评测与知识分发体系同步洗牌。

线性注意力后训练RL arXiv VLM加速评测基准

2026-01-08

模型评测与后训练新范式

LMArena以众包盲测获1.5亿美元融资，估值17亿美元；潞晨云8元跑通强化学习全流程，后训练进入“按Token计费”时代。评测即流量入口，低成本RLHF成为新基础设施，降低初创公司追赶门槛。

LMArena 模型评测后训练强化学习 Token计费

2025-11-29

后训练范式革新

中兴通讯AIM团队提出GRPO-only方法，仅用难样本、无需SFT即可在多模态基准上刷新SOTA，为行业提供数据高效、成本低的后训练新范式，降低大模型迭代门槛。

GRPO 后训练难样本多模态数据高效

2025-06-05

大模型训练成本骤降

Mary Meeker 340页报告确认：AI训练成本逼近10亿美元，推理成本却断崖式下降99%，叠加无监督熵最小化等后训练新方法，大模型普及门槛快速降低，行业进入“低价高可用”新阶段。

推理成本训练成本熵最小化后训练 Scaling Law

2025-05-30

大模型推理与效率突破

华为、DeepSeek、斯坦福等接连发布推理加速、长思维链涌现、低延迟内核等新技术，显著降低算力消耗并提升准确率，标志着后训练优化成为大模型落地关键路径，为端侧部署与实时交互打开空间。

推理加速长思维链低延迟后训练算力效率

2025-05-24

RLVR驱动后训练新范式

Claude 4核心研究员确认RLVR（强化学习从验证器反馈）已在编程与数学任务上验证优势，结合矩阵乘法RL搜索刷新纪录，表明后训练阶段采用可验证奖励信号正成为提升大模型专精能力的主流技术路线，将影响未来模型迭代节奏。

RLVR 强化学习后训练编程数学

2025-04-12

GPT-4.5/4.1系列换代

OpenAI官宣GPT-4退役，奥特曼首曝GPT-4.5训练因“torch.sum bug”险毁10万GPU，同时下周将发GPT-4.1，模型迭代速度空前，性能提升10倍，预示大模型竞争进入“后训练+infra”红利期。

GPT-4.5 OpenAI 基础设施模型退役后训练

2025-02-20

OpenAI核心出走创业

前CTO Mira Murati联手John Schulman、Lilian Weng等2/3 ChatGPT骨干成立Thinking Machines Lab，定位“开放版OpenAI”，承诺开源研究与可定制大模型；前联创Schulman更公开ChatGPT后训练PPT，搅动人才与生态格局。

Thinking Machines Lab Mira Murati OpenAI 后训练开源人才流动

2025-02-16

数学推理新纪录

上海AI Lab无需蒸馏R1，仅通过强化学习在数学推理任务上超越DeepSeek，展示RL在极限推理场景的潜力，为后训练阶段性能挖掘提供新思路。

数学推理强化学习 RL 后训练

2025-01-10

小模型数学推理逆袭o1

微软rStar-Math、360-LLaMA-Factory等方法让7B参数模型在数学基准上超越OpenAI o1，结合自进化与后训练技术，打破“大即好”神话，为端侧低成本高精度推理开辟新路径。

小模型数学推理 rStar-Math 后训练 o1

2024-12-07

Meta Llama3.3 70B后训练反超旗舰

Meta发布Llama3.3 70B，仅用后训练优化即超越自家405B与GPT-4、Gemini1.5Pro，开源+高性价比策略再次搅动大模型竞争格局，降低企业与开发者部署顶级模型的硬件门槛，加速行业向“小而强”路线迁移。

Llama3.3 开源大模型后训练优化性能超越 Meta

2024-11-02

模型后训练技术突破

Meta CGPO、字节HybridFlow、上海AI Lab MIA-DPO等框架集中开源，解决RLHF奖励欺骗、多图像对齐、训练部署效率等痛点，推动大模型从“预训练”进入“后训练”精细化时代，显著降低推理成本并提升多任务性能。

RLHF 后训练 CGPO HybridFlow MIA-DPO

2024-08-20

大模型性能突破与开源竞赛

通义千问Qwen2-Math 72B数学能力超越GPT-4，微软AgentInstruct合成数据让LLM数学暴涨168%，智源Infinity-Instruct千万级指令集把Llama3.1推到GPT-4边缘，开源社区正用数据工程与后训练技巧快速缩小与闭源巨头的差距，预示基础模型格局或加速洗牌。

开源大模型合成数据后训练数学推理指令微调

# 后训练