推理Scaling - AI话题

2025-04-06

DeepSeek联手清华发布推理时Scaling新论文，提出奖励模型扩展策略，显著提升推理任务性能，为即将发布的R2模型铺路；OpenAI随即调整路线图，数月内推出GPT-5，预示推理Scaling已成为大模型性能跃迁的核心战场。

2025-02-09

DeepSeek-R1以纯强化学习实现长思维链，被视作开启AI「下半场」的标志性模型；其开源策略与RL Scaling路径正重塑行业对推理模型训练与商业落地的预期，引发资本、科研及政策层面对开源生态的再评估。

2024-09-17

OpenAI发布o1系列模型，在数学、编程等复杂推理任务上实现120+智商级表现，1小时完成NASA博士1年代码量，并引发思维链可解释性、开源复现及强化学习Scaling Law等连锁讨论，被视为大模型逻辑推理的里程碑式突破。

AI快开门