【概览】国产与海外大模型同步刷新“视觉-语言”天花板,Kimi K2准确率宣称超GPT-5五成,DeepSeek-OCR把长文本记忆压进二维图像,AI视频、文档、科研全线进入“可用级”拐点。与此同时,算力短缺与云故障敲响基础设施警钟,商业化与合规暗流同步升温。
01 | 多模态大模型突破
DeepSeek-OCR用“视觉记忆压缩”把一维文字转二维特征,单卡可跑,长文本处理瓶颈出现破解信号;字节Sa2VA融合LLaVA与SAM-2,实现像素级语言交互;Google Veo 3.1把视频精确编辑做到“逐帧PS”。国产Kimi K2更以高出GPT-5约50%的准确率拿下多模态榜单,标志视觉输入正式成为LLM新范式。
02 | AI视频生成升级
Vidu Q2与Google Veo 3.1同日亮剑,同步上线“参考生视频”与“元素级精确编辑”,5分钟长故事一键生成,速度提升3倍;镜头、角色、道具均可像图层一样增删改,AI视频正式走出Demo,迈入工业化流水线。
03 | AI for Science工具化
MIT CRESt让大模型90天自主完成3500次电化学实验,哈佛ToolUniverse开源600+科研工具接口,Anthropic推出Claude for Life Sciences,催化、天文、蛋白降解数据库全面AI化——“AI科学家”从概念跑进实验室,科研效率进入指数级通道。
04 | 人形机器人量产与开源
中国团队率先量产绳驱人形机器人,获Nature盛赞“长肌腱”方案;宇树发布Unitree H2新品,身高1米8可跳舞功夫,同步开源Sim2Real框架,把硬件成本与算法门槛一并打下来,具身智能进入科研+商业双落地周期。
05 | 语音克隆普惠化
Fish Audio S1把克隆门槛砍到10秒音频,价格仅为ElevenLabs 1/6,同步上线Poe模型排行榜,与文本模型同台竞技,声音经济进入“平权”爆发期。
06 | 算力荒与云故障
OpenAI首度承认“内部抢卡抢到发疯”,AWS美东区域大规模故障导致ChatGPT、Snapchat集体瘫痪,算力瓶颈已从幕后走向前台,直接影响模型迭代与用户体验,基础设施成为AI竞赛的隐形战场。
07 | AI应用出海与合规
字节Cici在海外多国霸榜,阿里夸克启动“C计划”对标豆包,AI同传、AI医疗、AI炒股全球开花;Salesforce因模型侵权被诉,跨境支付与数据合规风险陡增,出海赛道进入“合规深水区”。
08 | AI投资与商业化加速
欧洲Nexos.ai、医疗OpenEvidence、量子Periodic Labs均获数亿美元融资,中国AI IaaS半年规模近200亿元、增速122%,资金与营收双线爆发,商业化飞轮开始自转。
【展望】多模态与视频生成跨越“可用拐点”,科研、机器人、语音等场景同步工具化,AI正从“能跑Demo”迈向“能打粮食”。但算力短缺、云故障与合规诉讼提醒行业:规模落地的前提是安全、弹性与治理同步升级,下一轮竞争将属于“模型+基础设施+合规”三位一体的新体系。