2026-05-08
实时语音模型突破
OpenAI三连发GPT-Realtime系列,首次把GPT-5级推理、同声传译、超低延迟语音转录合一,翻译与客服成本被“砍穿地板”,多语言交互进入“自然打断”时代,将重塑呼叫中心、国际会议与移动应用。
2025-09-04
开发者工具与平台开源
Raycast推Cursor Agent插件、谷歌发布Gemini CLI GitHub Actions、nano banana官方Prompt模板、Step-Audio 2 mini端到端语音模型开源,以及PosterGen一键学术海报等,降低接入门槛,丰富AI工程化工具链,助力个人与企业快速构建AI应用,形成开源+商业混合生态。
2025-03-22
语音智能体价格战
OpenAI一夜连发多款语音转文本/文本转语音模型,API最低降至0.3美分/分钟,并上线体验站OpenAI.fm;Anthropic为Claude解锁实时网络搜索,语音交互与知识时效性双升级,宣告语音智能体进入低价普惠时代。
2024-09-11
多模态与视频生成
Vidu推出“主体参照”功能解决角色一致性痛点,快手可灵API接入蓝色光标心影平台,让AI视频生成进入实用级;同时语音模型战场升温,亚马逊用Claude升级Alexa,Cerebras发布闪电级语音模式,多模态交互体验再上台阶。
2024-08-10
垂直领域模型与数据
阿里Qwen2-Audio在多项语音任务超越OpenAI Whisper,德州大学联合NIH发布21.5万张X光问答数据集Medical-CXR-VQA,Fireworks提出可解释量化评估框架,显示大模型正快速向医疗、语音、数学等垂直场景深化,数据与评测方法同步升级。