2025-04-05
Agentic AI与多模态交互新基准
Manus带火代理型AI,CVPR 2025 Oral发布OpenING多模态交互基准,GPT-4o新版本表现惊艳;华为推出GTS-LUM精准预测电信用户行为,标志着AI从对话走向行动、从单模态走向跨场景深度交互。
2025-04-02
语音&音乐AI新场景落地
MiniMax Speech-02支持20万字符超长语音合成,ElevenLabs推出“Text To Bark”犬类语音模型,百度跨模态端到端交互成本降90%,Reply举办AI音乐大赛,语音生成从“能听”走向“好用”并切入情感陪伴与创意生产。
2024-12-20
终端AI与可穿戴新物种
闪极999元AI眼镜、豆包视觉Pro、Instagram视频AI等功能让大模型“长眼睛”进入日常设备,端侧轻量化+多模态交互开启可穿戴2.0,国内厂商以低价硬件+云端大模型组合抢占入口。
2024-12-14
多模态交互进入实时视频时代
OpenAI 连发 GPT-4o 实时视频通话、屏幕共享与圣诞限定语音,ChatGPT 首次“睁眼”看懂用户动作,标志多模态交互从演示走向全民可用。新的交互范式将加速教育、娱乐、远程办公等场景落地,带动终端硬件与流量入口新一轮洗牌。
2024-09-11
多模态与视频生成
Vidu推出“主体参照”功能解决角色一致性痛点,快手可灵API接入蓝色光标心影平台,让AI视频生成进入实用级;同时语音模型战场升温,亚马逊用Claude升级Alexa,Cerebras发布闪电级语音模式,多模态交互体验再上台阶。