强化学习 - AI话题

2026-07-02

AI Agent自主化与协同基础设施

AReaL 2.0开源为Agent提供自演进强化学习基础设施，Claude Code升级支持子智能体后台自主运行，多个“Agent互联网”项目推动智能体跨平台协同。标志着AI正从单体工具向自主协同网络演进，记忆、规划与多Agent协作成为技术焦点。

Agent 智能体协同自主演进强化学习基础设施

2026-05-26

AI科研与数学突破

AI在基础科学研究中展现强大潜力，谷歌DeepMind AlphaProof Nexus攻克悬置56年的埃尔德什数学难题；国产AI实现全球首例"AI造AI"自动化训练；强化学习应用于空间组学实验设计，推动AI for Science进入新阶段。

AlphaProof AI for Science 数学推理自动化训练强化学习

2026-03-28

模型架构与训练突破

Anthropic意外泄露“Capybara”新架构全面碾压Opus 4.6，北大提出Frozen Policy迭代算法刷新强化学习样本效率，MoE与ViSNet-PIMA等结构创新持续推高模型性能与科学计算精度，底层技术仍在快速演进。

模型架构强化学习 MoE 科学计算

2026-03-11

多模态与世界模型突破

谷歌Gemini Embedding 2首个原生多模态嵌入模型上线，统一文本图像视频音频向量空间；谢赛宁团队发布全球首个多人视频世界模型Solaris，种子估值35亿美元；腾讯开源强化学习框架WorldCompass，推动世界模型精细调优，多模态理解与生成进入新阶段。

多模态嵌入世界模型 Gemini Embedding 2 Solaris 强化学习

2026-03-01

AI for Science纵深渗透

南大&腾讯提出零调用RL范式，一次性提炼环境常识解决样本效率难题；蛋白语言模型+几何深度学习框架PLGDL登Nat Commun，疫苗抗原预测精度大幅提升；AI替代动物实验获英美政策加码，器官芯片与类器官成为新评价主体。AI正系统性重塑科研方法论。

AI4Science 强化学习疫苗设计器官芯片因果涌现

2026-01-08

模型评测与后训练新范式

LMArena以众包盲测获1.5亿美元融资，估值17亿美元；潞晨云8元跑通强化学习全流程，后训练进入“按Token计费”时代。评测即流量入口，低成本RLHF成为新基础设施，降低初创公司追赶门槛。

LMArena 模型评测后训练强化学习 Token计费

2025-12-26

智能体Agent落地困局与infra升级

93%企业Agent项目卡在POC到生产最后一公里，Agent-native infra需求爆发；华为SCOPE、钉钉AI前台Hi1、RLinf v0.2等新品聚焦毫秒级调用、情感交互与真机强化学习，推动Agent从Demo走向生产级部署。

AI Agent 基础设施企业落地智能前台强化学习

2025-12-12

AI研究代理与开发者生态

谷歌把Gemini Deep Research升级为独立API并开放给开发者，NotebookLM限额提升50倍；微软开源Agent Lightning框架，零代码即可给AI代理注入强化学习；Cohere发布Rerank 4企业搜索，Hugging Face Hub 1.0定型，AI“研究-开发-部署”全栈工具链走向成熟，降低行业创新门槛。

研究代理 API 开发者强化学习工具链

2025-11-09