无奖励学习 - AI话题 - AI快开门

2025-06-01

无奖励自进化推理

UC伯克利提出仅靠“自信度”即可让LLM自我训练，无需外部奖励便在数学与编程任务上显著跃升，挑战传统RLHF范式，为低成本持续提升模型推理能力提供新思路。

自信训练自进化 LLM推理无奖励学习