样本效率 - AI话题

2025-06-29

Stanford 2025博士论文系统提出芯片设计到语言建模的序贯决策框架，解决样本效率与奖励归因难题，为RL走出游戏进入工业界提供可复用范式。

2024-12-08

OpenAI推出Reinforcement Fine-Tuning，用几十条样本即可让o1-mini反超o1，得分暴涨80%，为垂直领域低成本打造专家模型提供新范式，科研、医疗、法律等场景商业化门槛显著降低。

AI快开门