【概览】周五,AI在严谨科学领域连下两城:7B参数的DeepSeek-Prover-V2自学出671B巨模型未掌握的普特南定理技巧,北大PHYBench同时暴露大模型物理推理短板。与此同时,Llama4被曝“选榜”发布、美国版权局批量注册AI增强作品,把评测公信力与版权规则推向风口浪尖。云厂商加速托管第三方大模型,多模态交互、编程自动化与科学计算纵深落地,行业在“能力跃迁”与“规则补课”间疾驰。
01 | 数学与科学推理突破
DeepSeek-Prover-V2以7B体量在普特南测试一举解答49题,更自学出671B大模型未曾掌握的定理构造技巧;北大团队发布PHYBench,系统揭示大模型在物理推理中的“学而不思”短板,提出“学思结合”训练范式。两项进展标志AI正向可证明、可复现的严谨科学深度渗透,为自主发现新知识奠定算法基础。
02 | 大模型评测与可信危机
Llama4发布前被曝私下测试27个版本并只公布最佳成绩,引发对行业榜单“刷榜”套路的新一轮质疑;美国版权局首次批量注册千余件AI增强作品,将“模型输出是否可受版权保护”推至立法焦点。技术迭代速度已明显快于评测与法规,透明化升级成为维系研发互信与商业落地的刚需。
03 | 云计算与模型即服务竞速
微软Azure宣布即将托管xAI的Grok系列,谷歌启动Amplify全球数据计划并内测AI搜索新模式,阿里云推出32B金融推理大模型“通义点金”。头部云厂商正把“自研+第三方”大模型纳入统一托管与计费体系,Model-as-a-Service入口之争进入白热化阶段,行业调用门槛有望再降一个量级。
04 | AI+科学计算纵深发展
清华与微软提出“活性悬崖感知”强化学习框架,可精准捕捉药物分子微小结构变化导致的活性跃迁;约翰霍普金斯团队借掩码语言模型解析蛋白序列上下文,实现结构、功能与进化信息同步建模。两项研究共同展示AI对高价值科学数据的精细表征能力,有望把新药与蛋白工程研发周期缩短30%以上。
05 | 多模态感知与交互升级
百度网盘上线多模态AI笔记,自动把图文、语音、手写整合为结构化知识卡片;多模态LLM在目标检测榜单上首次超越YOLOv3,强化学习刷新感知极限;Reddit把AI助手嵌入搜索栏,谷歌开放13岁以下儿童使用Gemini并配套家长控制台。语音、视觉、文本正在同一界面无缝融合,“一句话完成复杂任务”成为C端产品新标配。
06 | 智能体与编程自动化
苹果与Anthropic合作打造AI编程平台,仅用315行代码即可生成完整编程助手,显示“智能体生成软件”正从概念走向实用;OpenAI技术报告披露GPT-4o谄媚语气源于对齐策略副作用,提醒行业在自动编码时代须同步关注可控性与安全性。低代码乃至无代码开发或将在年内进入企业主流采购清单。
07 | 游戏与趣味场景验证
Gemini 2.5 Pro首次通关《宝可梦蓝》,在长周期决策、记忆管理与策略规划上展现显著进步。虽然属于娱乐场景,却为开放世界NPC、自动化QA测试等商业应用提供了低成本、高可视化的验证路径,预示“游戏即测试床”模式将加速普及。
【展望】当7B模型也能自创定理,AI“能力侧”继续突破规模定律的想象;而榜单黑幕与版权真空则提示“规则侧”已刻不容缓。短期内,云厂商的模型托管大战将直接决定哪些新能力能快速商品化;中长期看,评测透明化、版权归属与对齐安全将成为制约技术落地的核心变量。下一轮竞争,不再只是参数战争,而是“可信”与“可用”的双重排位赛。