AI快开门

发现最好的AI工具

2025-11-13

AI语音实时交互升级

谷歌Gemini Live新增语速/口音调节,ElevenLabs推出150毫秒延迟的Scribe v2实时语音转文本并上线名人声音市场,OpenAI GPT-5.1内置6种人格语音模式,语音大模型在延迟、情感、多语言上集体突破,推动实时翻译、直播、虚拟人场景快速普及。
2024-11-23

多模态大模型突破

Meta开源7B Spirit LM实现情感保留语音-文本统一,DeepSeek等提出JanusFlow 1.3B模型统一视觉理解与生成,谷歌、阿里相继发布Gemini-Exp、Marco-o1等实验模型,多模态能力成为大模型竞争新焦点,推动AI向更自然的人机交互迈进。