零样本 - AI话题 - AI快开门

2026-06-19

人形机器人通用控制突破

全球首个人形机器人通用“小脑”发布，基于2万小时人类动作数据训练，实现零样本泛化能力。该技术突破解决了机器人在不同场景下的动作迁移难题，标志着具身智能进入通用控制新阶段，为人形机器人规模化应用奠定关键基础。

2026-05-28

具身智能与端侧AI硬件突破

AI向物理世界延伸，具身智能与端侧硬件成为新焦点。国产具身大模型Wall-OSS-0.5实现零样本部署突破；Mistral AI联手空客宝马进军高端制造；科大讯飞发布AI眼镜，谷歌推出珊瑚AI开发板支持离线大模型运行。这些进展推动AI从数字世界向实体产业渗透，标志着"实体AI"赛道的崛起。

具身智能端侧AI AI硬件实体AI 零样本学习

2026-04-09

开源语音大模型混战

小米OmniVoice、MiniMax VoxCPM、Mistral Voxtral等轻量级多语TTS集中开源，支持600+语种零样本克隆与3秒极速复刻，大幅降低配音门槛，推动内容创作、播客、无障碍交互快速普及。

开源TTS 零样本克隆多语种语音合成

2026-03-30

具身智能逼近GPT时刻

宇树、南大、NUS等机构在VLA模型、世界模型、零样本操作取得突破，王兴兴预测2年内机器人可凭语音完成90%陌生任务；智元15个月量产万台，人形机器人进入指数级爬坡，行业等待“ChatGPT时刻”。

具身智能世界模型 VLA 人形机器人零样本

2026-01-03

大模型高效微调

Nat. Mach. Intell. 提出的 scPEFT 框架用低维适配器冻结主干，实现单细胞大语言模型任务与物种迁移，参数与显存下降 90% 以上，缓解灾难性遗忘，为生命科学大模型落地提供低成本范式。

scPEFT 单细胞参数高效微调灾难性遗忘零样本

2025-12-14

视觉通才与统一架构

港中文&美团开源OneThinker，用强化学习统一图像视频10类任务，在31项基准零样本跃升；谷歌同时推进AI同传耳机与AI浏览器，把多模态能力嵌入消费级硬件。视觉模型走向“一模型多任务”，降低开发碎片化，加速AR/VR、自动驾驶与智能眼镜落地。

视觉通才多任务统一零样本 AI同传消费硬件

2025-11-14

具身智能资本与技术双突破

Dexmal原力灵机两轮融近10亿元获阿里、蔚来加码；北大&BeingBeyond零样本人形机器人DemoHLM登NeurIPS；北京人形机器人开源超大参数量VLM，具身智能从实验室走向产线，商业化窗口期全面打开。

具身智能人形机器人融资零样本 VLM

2025-09-28

机器人具身智能突破

谷歌 DeepMind 推出首个“具身推理”大模型 Gemini Robotics 1.5，实现零样本技能迁移；腾讯混元发布原生 3D 组件生成模型，让机器人“先思考再行动”，加速通用机器人和自动化落地。

具身智能机器人 VLA 零样本 3D生成

2025-09-27

机器人具身智能突破

谷歌DeepMind发布Gemini Robotics 1.5，实现跨形态技能迁移与零样本学习；清华&上海AI Lab提出SimpleVLA-RL框架，用极少数据训练通用机器人策略。两大进展同步解决数据稀缺与泛化难题，推动机器人从“专用”走向“通用”，加速工业与家庭场景落地。

Gemini Robotics VLA 具身智能零样本强化学习

2025-04-08

多模态大模型技术突破潮

Vision-R1、SkyReels-A2、Sync Labs Lipsync-2 等新框架在视觉定位、可控视频生成、零样本嘴型同步等方向刷新 SOTA；谷歌、Runway、亚马逊亦升级多模态模型，显示生成式 AI 正向更细粒度、跨模态对齐与实时交互快速演进。

多模态视频生成视觉定位零样本

2025-01-31

AI质谱搜索突破零样本

滑铁卢大学与郑州华中AI院推出DeepSearch，用对比学习端到端检索串联质谱，无需修饰先验即可零样本鉴定翻译后修饰，将蛋白质组学鉴定率提升12%，为精准医学与药物靶点发现提供新工具。

DeepSearch 质谱对比学习零样本蛋白质组学

2024-11-24

AI Agent 与 GUI 自动化

Claude 可无脚本操控电脑完成《崩坏：星穹铁道》日常任务，北大 ChatExcel 一句话搞定 20 种复杂表格操作，智能体正从“对话”走向“动手”，零样本 GUI 控制成为落地新热点。

AI Agent GUI自动化零样本 ChatExcel 游戏机器人

2024-09-22

AI+游戏与娱乐新场景

GPT-4o无需强化学习即可直接驱动《黑神话》角色击败精英怪，胜率超人类玩家，展示大模型在实时决策、动作游戏领域的零样本泛化潜力；该“纯大模型”方案降低游戏AI开发门槛，为UGC游戏、云游戏和互动影视提供新范式。

GPT-4o 黑神话游戏AI 零样本决策互动娱乐

2024-09-07

语音与声学通用大模型进展

国内首个端到端通用语音大模型「心辰Lingo」发布，支持多场景自然对话；MMS Zero-shot实现跨语言零样本语音识别，声学大模型正突破数据稀缺瓶颈，为低资源语言与实时交互应用提供新基座。

心辰Lingo 语音大模型零样本识别声学模型跨语言

2024-07-30

Meta SAM 2 视觉分割革命

Meta开源Segment Anything 2.0，实现零样本实时视频任意对象追踪与分割，代码权重全开放，一键完成像素级视频编辑，被视为CV领域“GPT时刻”，将重塑影视、广告、自动驾驶标注流程。

SAM 2 视频分割 Meta开源零样本像素级

2024-05-10

图与推荐大模型前沿进展

港大开源 OpenGraph，实现跨域图数据零样本预测；港大同时发布 SSL4Rec 综述，系统梳理 170 余篇自监督学习在推荐系统中的应用。两者共同展示图神经网络与大模型融合的新趋势，为泛化性推荐、冷启动等问题提供新基线。

图基础模型 OpenGraph 自监督学习推荐系统零样本

2024-04-15

语音克隆逼近真人

NaturalSpeech 3实现3秒零样本高保真语音克隆并可控情绪，国内高校联合微软突破，将重塑配音、客服、虚拟人等行业语音生产流程。

语音克隆零样本 NaturalSpeech 情绪控制微软

2024-04-08

大模型效率与训练新范式

从矩阵内核重写、神经压缩文本训练到零样本检测，多条研究同时指向“让大模型更快、更省、更安全”。谷歌DeepMind、斯坦福、清华等团队提出ReFT、压缩训练、Fast-DetectGPT等方案，推理速度最高提升5倍，检测速度提升340倍，为落地成本和可信应用扫清障碍。

大模型提速训练新范式零样本检测神经压缩推理优化

2024-03-30

多模态目标检测新突破

IDEA研究院T-Rex2模型融合视觉+文本提示，解决“吉娃娃or松饼”等细粒度计数难题，子弹时间物体精准检测，推动零样本检测进入实用阶段。

T-Rex2 多模态目标检测零样本 IDEA

2024-03-16

时序与代码生成基础模型突破

谷歌200M参数TimesFM实现零样本时序预测新SOTA，复旦StepCoder借编译器反馈强化学习刷榜代码生成，显示小参数、专用架构也能在垂直领域击败大模型，为端侧部署提供范式。

基础模型时序预测代码生成强化学习零样本

# 零样本

人形机器人通用控制突破

具身智能与端侧AI硬件突破

开源语音大模型混战

具身智能逼近GPT时刻

大模型高效微调

视觉通才与统一架构

具身智能资本与技术双突破

机器人具身智能突破

机器人具身智能突破

多模态大模型技术突破潮

AI质谱搜索突破零样本

AI Agent 与 GUI 自动化

AI+游戏与娱乐新场景

语音与声学通用大模型进展

Meta SAM 2 视觉分割革命

图与推荐大模型前沿进展

语音克隆逼近真人

大模型效率与训练新范式

多模态目标检测新突破

时序与代码生成基础模型突破