语音模型 - AI话题 - AI快开门

2026-05-08

实时语音模型突破

OpenAI三连发GPT-Realtime系列，首次把GPT-5级推理、同声传译、超低延迟语音转录合一，翻译与客服成本被“砍穿地板”，多语言交互进入“自然打断”时代，将重塑呼叫中心、国际会议与移动应用。

GPT-Realtime 同声传译语音模型 OpenAI 低延迟

2025-09-04

开发者工具与平台开源

Raycast推Cursor Agent插件、谷歌发布Gemini CLI GitHub Actions、nano banana官方Prompt模板、Step-Audio 2 mini端到端语音模型开源，以及PosterGen一键学术海报等，降低接入门槛，丰富AI工程化工具链，助力个人与企业快速构建AI应用，形成开源+商业混合生态。

开源开发者工具语音模型 CLI AI编程

2025-03-22

语音智能体价格战

OpenAI一夜连发多款语音转文本/文本转语音模型，API最低降至0.3美分/分钟，并上线体验站OpenAI.fm；Anthropic为Claude解锁实时网络搜索，语音交互与知识时效性双升级，宣告语音智能体进入低价普惠时代。

OpenAI语音模型 API降价 Claude搜索语音智能体

2024-09-11

多模态与视频生成

Vidu推出“主体参照”功能解决角色一致性痛点，快手可灵API接入蓝色光标心影平台，让AI视频生成进入实用级；同时语音模型战场升温，亚马逊用Claude升级Alexa，Cerebras发布闪电级语音模式，多模态交互体验再上台阶。

AI视频 Vidu 可灵语音模型多模态交互

2024-08-10

垂直领域模型与数据

阿里Qwen2-Audio在多项语音任务超越OpenAI Whisper，德州大学联合NIH发布21.5万张X光问答数据集Medical-CXR-VQA，Fireworks提出可解释量化评估框架，显示大模型正快速向医疗、语音、数学等垂直场景深化，数据与评测方法同步升级。

Qwen2-Audio 医疗VQA 模型量化语音模型数据集

2024-05-27

国产大模型产品竞速

天工AI DAU破百万、豆包模型性能提升19%、电信方言语音大模型通过30种方言测试，国产大模型在C端与行业场景快速迭代，用户规模与多模态能力成为新一轮竞争焦点。

国产大模型用户增长多模态语音模型