AI快开门

发现最好的AI工具

2025-06-21

大模型训练与RL新策略

清华&阿里发现“少量高熵tokens”决定大模型推理方向,提出高效RL训练新策略;智源推出Absolute Zero,无需人工数据、自主生成任务提升推理;CMU等将LLM编译成单内核降延迟6.7倍,显示后训练与编译优化正成为性能提升主战场。