AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
轨迹构建
相关话题
2025-06-29
强化学习现实应用方法论
Stanford 2025博士论文系统提出芯片设计到语言建模的序贯决策框架,解决样本效率与奖励归因难题,为RL走出游戏进入工业界提供可复用范式。
强化学习
芯片设计
样本效率
轨迹构建