AI快开门

发现最好的AI工具

2025-04-20

强化学习与生成式世界模型新框架

清华提出光滑策略迭代SPI提升对抗强化学习收敛速度;UCLA-Meta发布d1框架用类GRPO强化学习优化扩散LLM推理;AETHER开源首个融合重建-预测-规划的生成式世界模型,三大新框架同步推进决策智能与仿真能力边界。