2026-01-08
模型评测与后训练新范式
LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2025-12-26
智能体Agent落地困局与infra升级
93%企业Agent项目卡在POC到生产最后一公里,Agent-native infra需求爆发;华为SCOPE、钉钉AI前台Hi1、RLinf v0.2等新品聚焦毫秒级调用、情感交互与真机强化学习,推动Agent从Demo走向生产级部署。
2025-12-12
AI研究代理与开发者生态
谷歌把Gemini Deep Research升级为独立API并开放给开发者,NotebookLM限额提升50倍;微软开源Agent Lightning框架,零代码即可给AI代理注入强化学习;Cohere发布Rerank 4企业搜索,Hugging Face Hub 1.0定型,AI“研究-开发-部署”全栈工具链走向成熟,降低行业创新门槛。
2025-11-09
自动驾驶端到端新范式
ICCV 2025上特斯拉、理想等共识:以统一生成式世界模型VLA+强化学习闭环训练,替代传统堆叠模块,解决数据瓶颈并迈向L4。新范式把驾驶策略与环境预测同步优化,被视为物理AI落地的关键跃迁,牵动整车、芯片与云厂商生态重构。
2025-11-09
多智能体协同与工具调用
UCSD发布首个多智能体“群体强化”框架PettingLLMs,使大模型工具调用能力暴升5.8倍;IEEE图智能体综述提出GLA统一蓝图,为复杂系统决策提供新架构。多体协同正成为提升LLM落地效率的核心路径,影响机器人、游戏、运维等场景。
2025-11-04
具身智能与工业AI落地
智元机器人真机强化学习产线落地、普罗宇宙发布大白机器人2.0及灵巧手、英伟达H100太空AI服务器首飞,表明具身智能正走出实验室,进入工厂与极端环境,结合强化学习与多模态感知开启规模化商业阶段。
2025-10-13
Meta人才与技术双线突围
Meta挖角Thinking Machines Lab联合创始人、15亿美元薪酬迎回PyTorch之王,同时发布无监督自我进化智能体论文,彰显其在AI顶尖人才与强化学习新范式上的双重野心。
2025-09-27
机器人具身智能突破
谷歌DeepMind发布Gemini Robotics 1.5,实现跨形态技能迁移与零样本学习;清华&上海AI Lab提出SimpleVLA-RL框架,用极少数据训练通用机器人策略。两大进展同步解决数据稀缺与泛化难题,推动机器人从“专用”走向“通用”,加速工业与家庭场景落地。
2025-09-18
大模型科研突破与Nature封面
DeepSeek-R1成为首篇登上《Nature》封面的国产大模型论文,训练成本仅29.4万美元,通过强化学习实现高效推理,标志着中国大模型研究获得国际顶级学术认可,为低成本高性能模型树立新标杆。
2025-09-08
超大规模模型突破
阿里Qwen3-Max-Preview突破万亿参数,微软14B小模型以强化学习逼近671B巨模型,Meta、字节等同步刷新长上下文与多模态极限,标志大模型进入“参数+算法”双轨竞争,算力效率与智能密度同步跃升。
2025-09-08
推理与Agent架构革新
英伟达推出可插拔任意LLM的通用深度研究系统,微软rStar2-Agent以140亿参数挑战大模型推理,TeleAI提出潜空间VLA后训练法,Agentic RL成为LLM下半场核心范式,推动模型从“会说”到“会做”。
2025-08-10
生成模型与多模态创新
腾讯X-Omini用强化学习复兴离散自回归生成,扩散模型被证数据效率3倍于自回归且可重复训练数百次仍提升,显示生成式AI在图像-文本统一、长序列建模上仍有巨大潜力,为内容创作、长文本多模态应用提供新基座。
2025-07-24
AI Agent技术落地
OpenAI首次公开ChatGPT Agent强化学习细节,GitHub Spark、Trae 2.0 SOLO等一键生成全栈应用,标志着Agent从“对话”走向“执行”,开启无代码软件工程新时代。
2025-06-29
强化学习现实应用方法论
Stanford 2025博士论文系统提出芯片设计到语言建模的序贯决策框架,解决样本效率与奖励归因难题,为RL走出游戏进入工业界提供可复用范式。
2025-06-24
AI for Science再进阶
从MM-Eureka跨学科强化学习、虚拟细胞模型STATE到AI设计的GLP-1新药MDR-002,AI在数学证明、生物模拟、药物发现环节刷新SOTA,验证“小数据+强化”或“多模态+干实验”可快速产生真实科学价值。
2025-06-22
开源多模态与强化学习
OpenUni 1.1B多模态模型开源性能媲美8B BLIP3-o;同期RLHF→PPO→GRPO系统指南发布,降低推理模型训练门槛,推动中小团队低成本复现顶尖效果,加速社区创新。
2025-06-21
大模型训练与RL新策略
清华&阿里发现“少量高熵tokens”决定大模型推理方向,提出高效RL训练新策略;智源推出Absolute Zero,无需人工数据、自主生成任务提升推理;CMU等将LLM编译成单内核降延迟6.7倍,显示后训练与编译优化正成为性能提升主战场。
2025-06-04
AI智能体与编程自动化
OpenAI、Anthropic、普林斯顿Alita等相继升级Agent SDK、MCP与全异步强化学习框架,支持语音打断、远程工具调用和自主进化,氛围编程、浏览器智能体将“描述即软件”推向现实,软件生产门槛接近零。
2025-05-31
机器人与智能体自主进化
强化学习让机器狗从零学会羽毛球对打并涌现类人回位,EvoAgentX框架实现多智能体“一次部署终生自进化”,Hugging Face 250美元开源人形机器人降低硬件门槛,具身智能与智能体系统同步进入“自我迭代”时代。