2026-01-08
模型评测与后训练新范式
LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2025-11-29
后训练范式革新
中兴通讯AIM团队提出GRPO-only方法,仅用难样本、无需SFT即可在多模态基准上刷新SOTA,为行业提供数据高效、成本低的后训练新范式,降低大模型迭代门槛。
2025-06-05
大模型训练成本骤降
Mary Meeker 340页报告确认:AI训练成本逼近10亿美元,推理成本却断崖式下降99%,叠加无监督熵最小化等后训练新方法,大模型普及门槛快速降低,行业进入“低价高可用”新阶段。
2025-05-30
大模型推理与效率突破
华为、DeepSeek、斯坦福等接连发布推理加速、长思维链涌现、低延迟内核等新技术,显著降低算力消耗并提升准确率,标志着后训练优化成为大模型落地关键路径,为端侧部署与实时交互打开空间。
2025-05-24
RLVR驱动后训练新范式
Claude 4核心研究员确认RLVR(强化学习从验证器反馈)已在编程与数学任务上验证优势,结合矩阵乘法RL搜索刷新纪录,表明后训练阶段采用可验证奖励信号正成为提升大模型专精能力的主流技术路线,将影响未来模型迭代节奏。
2025-04-12
GPT-4.5/4.1系列换代
OpenAI官宣GPT-4退役,奥特曼首曝GPT-4.5训练因“torch.sum bug”险毁10万GPU,同时下周将发GPT-4.1,模型迭代速度空前,性能提升10倍,预示大模型竞争进入“后训练+infra”红利期。
2025-02-20
OpenAI核心出走创业
前CTO Mira Murati联手John Schulman、Lilian Weng等2/3 ChatGPT骨干成立Thinking Machines Lab,定位“开放版OpenAI”,承诺开源研究与可定制大模型;前联创Schulman更公开ChatGPT后训练PPT,搅动人才与生态格局。
2025-02-16
数学推理新纪录
上海AI Lab无需蒸馏R1,仅通过强化学习在数学推理任务上超越DeepSeek,展示RL在极限推理场景的潜力,为后训练阶段性能挖掘提供新思路。
2025-01-10
小模型数学推理逆袭o1
微软rStar-Math、360-LLaMA-Factory等方法让7B参数模型在数学基准上超越OpenAI o1,结合自进化与后训练技术,打破“大即好”神话,为端侧低成本高精度推理开辟新路径。
2024-12-07
Meta Llama3.3 70B后训练反超旗舰
Meta发布Llama3.3 70B,仅用后训练优化即超越自家405B与GPT-4、Gemini1.5Pro,开源+高性价比策略再次搅动大模型竞争格局,降低企业与开发者部署顶级模型的硬件门槛,加速行业向“小而强”路线迁移。
2024-11-02
模型后训练技术突破
Meta CGPO、字节HybridFlow、上海AI Lab MIA-DPO等框架集中开源,解决RLHF奖励欺骗、多图像对齐、训练部署效率等痛点,推动大模型从“预训练”进入“后训练”精细化时代,显著降低推理成本并提升多任务性能。