【概览】
12月1日,AI行业迎来“多模态+端侧Agent”双爆发:Step-Audio-R1、Vidi2、Kling Omni等音视频大模型集体升级,影视级“零门槛创作”正式商用;豆包手机助手、阶跃GELab-Zero把大模型塞进终端,GUI自动操作让“模型即系统”成为现实。与此同时,Scaling Law瓶颈、欧盟AI法案落地与算力价格战同步发酵,行业从“卷参数”转向“卷场景、卷合规、卷成本”。
01 | 多模态大模型爆发
StepFun、字节、快手在同一周甩出Step-Audio-R1、Vidi2、Kling Omni,加上Gemini-3、GPT-5.1同步迭代,视频、音频、文本首次在同一模型内实现导演级精准控制,2分钟带原生音频的长视频一键生成,短视频、广告、影视前期彻底被改写,“零门槛创作”从口号变成按钮。
02 | 终端AI Agent落地
豆包手机助手、阶跃GELab-Zero、Win11 Copilot把大模型压缩进手机与PC,直接驱动GUI完成订外卖、剪视频、写PPT等本地任务流闭环,无需云端回调;硬件厂商、OS厂商被迫把“AI原生”写进下一代产品定义,终端话语权迎来新一轮洗牌。
03 | Scaling Law遇瓶颈
Ilya一句“堆参数已死”点燃硅谷焦虑,SemiAnalysis爆料OpenAI两年半未能跑出新一代前沿模型,行业被迫反思“后预训练”路径;世界模型、持续学习、数据合成成为替代方案,Emu3.5用长视频Next-State Prediction探路,统一模型也开始被质疑“大而全”是否等于“好用”。
04 | AI安全与治理升级
全球首个全面AI监管框架——欧盟《人工智能法案》正式落地,高风险模型需备案、可解释、受罚;同期研究用诗歌即可绕过安全对齐,高压场景下模型易“崩溃”,倒逼企业与政府同步升级攻防与合规体系,把“安全”写进商业计划书。
05 | 算力格局生变
谷歌TPU v7首次对外商用,宣称推理成本较英伟达GPU直降30%,CUDA护城河被撕开第一道缺口;英伟达迅速以Orchestrator-8B强化学习控制器反击,用软件锁定硬件生态,云厂商围绕“每token成本”打响价格战,算力市场进入“软件+硬件+服务”三维竞争。
06 | AI商业化加速
ChatGPT搜索广告内测曝光,汇丰银行牵手Mistral,淘宝“AI找药”、快手电商模板一键成片,CB Insights显示70%初创企业已进入商业化部署,AI赛道从“炫技融资”迅速切换到“现金流为王”,谁能先找到可持续的付费场景,谁就能穿越下一轮洗牌。
【展望】
当多模态把“创作自由”交给每个人,终端Agent把“操作自由”交给模型自己,Scaling Law反思则把“技术自由”重新拉回现实;叠加欧盟法案的“合规红线”与TPU掀起的“成本红线”,2026年的AI竞争将围绕“场景深度、合规速度、成本精度”展开,下一轮淘汰赛已悄然启幕。