过程奖励 - AI话题

2024-11-17

谷歌DeepMind提出过程奖励模型PRM+PAV，将数学推理准确率提升8%；同时“删除冗余token”策略让视频大模型训练时间减少30%，显示后训练与模型压缩正成为性能与成本优化关键路径。

AI快开门