多模态交互 - AI话题

2026-03-03

Rokid、讯飞、阿里、Meta 等多款 AI 眼镜集中发布，主打翻译、搜索、多模型切换与隐私检测，轻量化+多模态交互成标配，预示“可穿戴 AI 入口”竞争全面升温，并带动光学、芯片与隐私治理新赛道。

2025-04-05

Manus带火代理型AI，CVPR 2025 Oral发布OpenING多模态交互基准，GPT-4o新版本表现惊艳；华为推出GTS-LUM精准预测电信用户行为，标志着AI从对话走向行动、从单模态走向跨场景深度交互。

2025-04-02

MiniMax Speech-02支持20万字符超长语音合成，ElevenLabs推出“Text To Bark”犬类语音模型，百度跨模态端到端交互成本降90%，Reply举办AI音乐大赛，语音生成从“能听”走向“好用”并切入情感陪伴与创意生产。

2024-12-20

闪极999元AI眼镜、豆包视觉Pro、Instagram视频AI等功能让大模型“长眼睛”进入日常设备，端侧轻量化+多模态交互开启可穿戴2.0，国内厂商以低价硬件+云端大模型组合抢占入口。

2024-12-14

OpenAI 连发 GPT-4o 实时视频通话、屏幕共享与圣诞限定语音，ChatGPT 首次“睁眼”看懂用户动作，标志多模态交互从演示走向全民可用。新的交互范式将加速教育、娱乐、远程办公等场景落地，带动终端硬件与流量入口新一轮洗牌。

2024-09-11

Vidu推出“主体参照”功能解决角色一致性痛点，快手可灵API接入蓝色光标心影平台，让AI视频生成进入实用级；同时语音模型战场升温，亚马逊用Claude升级Alexa，Cerebras发布闪电级语音模式，多模态交互体验再上台阶。

2024-05-15

清华陈建宇组提出抗噪世界模型框架，显著提升人形机器人在复杂地形上的鲁棒性；同时多模态 AI 生成游戏、文字动画等新交互形态出现，体现 AI 与物理/数字实体融合加速。

AI快开门