情感语音 - AI话题

2025-11-13

谷歌Gemini Live新增语速/口音调节，ElevenLabs推出150毫秒延迟的Scribe v2实时语音转文本并上线名人声音市场，OpenAI GPT-5.1内置6种人格语音模式，语音大模型在延迟、情感、多语言上集体突破，推动实时翻译、直播、虚拟人场景快速普及。

2024-11-23

Meta开源7B Spirit LM实现情感保留语音-文本统一，DeepSeek等提出JanusFlow 1.3B模型统一视觉理解与生成，谷歌、阿里相继发布Gemini-Exp、Marco-o1等实验模型，多模态能力成为大模型竞争新焦点，推动AI向更自然的人机交互迈进。

AI快开门