【概览】
周一,全球基准测试榜单在 6 小时内三度易主,Claude 3.7、Grok-3、GPT-4.5 轮番刷新代码与推理极限;与此同时,智谱、MiniMax 等集中开源多模态模型,把文生图、视频生成成本砍至十分之一。技术突破、资本狂飙与治理警钟同频共振,AI 进入“性能-成本-安全”三线并行的新周期。
01 | 大模型竞技升级
Claude 3.7 在《超级玛丽》实时操作任务中零样本通关,首次展现“游戏思维链”;仅隔六小时,xAI Grok-3 以 1 分优势反超 GPT-4.5 重夺竞技场榜首,并在创意写作、代码生成两项拿下第一。代码、社交推理与多模态实时交互成为新的分水岭,直接牵动开发者选型与资本偏好。
02 | 国产开源模型爆发
智谱 CogView4 率先支持中英双语提示词并稳定生成汉字,MiniMax Image-01 把商用级文生图成本打到 0.1 折;Wan2.1 GP 视频模型可在单张 3060 上渲染 480p 大片。密集开源大幅降低开发者门槛,中文原生能力成为差异化卖点,国内多模态应用预计提前半年进入量产。
03 | AI+科学计算突破
耶鲁 MindLLM 把 fMRI 信号直接翻译成连贯文本,开启“读脑”实验新范式;ESM3 在语言模型框架内模拟 5 亿年蛋白质进化,生成新酶活性提升 2.3 倍;NVIDIA Proteina 主链设计参数量达 RFdiffusion 5 倍,原子级精度刷新纪录。大模型正重构生命科学、材料与脑科学的基础研究流程。
04 | AI安全与治理升温
中央政治局集体学习聚焦 AI 安全,雷军在两会提议对“AI 换脸拟声”侵权设立专项罚则;热门框架 Ollama 被曝远程代码执行漏洞,Hinton 与马斯克就“高杠杆研发”公开互斥。技术狂奔背后,伦理、法律与系统性风险同步放大,政策窗口期正在收窄。
05 | 终端AI全面渗透
三星 Galaxy S25 国行全系接入 DeepSeek-R1,德国电信联合 Perplexity 推出无谷歌原生 AI 手机;高通与 AMD 最新芯片分别集成 45 TOPS 与 50 TOPS 级 NPU,Opera 发布浏览器内置智能代理。大模型从云端向边缘迁移,实时推理体验成为新一轮硬件卖点。
06 | 资本狂潮与估值重构
Anthropic 单轮拿下 35 亿美元,估值跃至 615 亿美元;软银被曝举债 500 亿美元加注 OpenAI,杭州 10 亿元战略投资智谱;19 岁哈佛退学少年两个月内把 AI 招聘公司做到 20 亿美元估值。基础模型、应用与芯片全链路估值再膨胀,高杠杆狂欢与泡沫风险并存。
07 | 内容产业流量重构
Spotify 上线 AI 音乐改编工具与“狼人杀”直播,GPT-4.5 在多智能体博弈中展现顶级欺骗策略;同时,某头部出版商接入 AI 聊天机器人后搜索流量骤降 96%。生成式 AI 正在同时重塑内容创作与分发,传统版权和广告模式面临系统性冲击。
【展望】
当“多模态+强推理”成为头部模型标配,性能差距可能以小时计,开发者将优先选择成本可控、合规透明的开源方案;边缘算力与终端 AI 的爆发,则让实时交互体验成为用户换机新理由。资本端的高杠杆游戏与政策端的强监管预期同步升温,下一轮竞争不仅关乎参数,更关乎谁能率先平衡性能、成本与安全“不可能三角”。