AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
无奖励学习
相关话题
2025-06-01
无奖励自进化推理
UC伯克利提出仅靠“自信度”即可让LLM自我训练,无需外部奖励便在数学与编程任务上显著跃升,挑战传统RLHF范式,为低成本持续提升模型推理能力提供新思路。
自信训练
自进化
LLM推理
无奖励学习