AI快开门

发现最好的AI工具

2025-06-01

无奖励自进化推理

UC伯克利提出仅靠“自信度”即可让LLM自我训练,无需外部奖励便在数学与编程任务上显著跃升,挑战传统RLHF范式,为低成本持续提升模型推理能力提供新思路。