TTS - AI话题 - AI快开门

2026-04-18

语音与情感智能

智源 EchoMind 构建首个共情语音评测基准，小米开源 OmniVoice 支持 600+ 种语言 TTS，多模态情绪理解与高保真语音生成并进，推动 AI 对话系统进入情感智能时代。

2026-04-09

开源语音大模型混战

小米OmniVoice、MiniMax VoxCPM、Mistral Voxtral等轻量级多语TTS集中开源，支持600+语种零样本克隆与3秒极速复刻，大幅降低配音门槛，推动内容创作、播客、无障碍交互快速普及。

开源TTS 零样本克隆多语种语音合成

2026-01-23

国产大模型低资源突围

月之暗面总裁张予彤在达沃斯表示，Kimi仅用美国顶尖实验室1%算力实现性能突围，强调效率优先而非“大力出奇迹”。阿里通义千问开源Qwen3-TTS，97ms超低延迟+3秒克隆，展现国产模型在语音、推理等场景以低成本逼近第一梯队的集体努力。

Kimi 低资源国产大模型通义千问 TTS

2025-12-08

多模态内容生成突破

苹果STARFlow-V、可灵AI主体库、阿里Qwen3-TTS、美团LongCat-Image等集中发布，实现30秒稳定视频、角色一致记忆、49种音色及中文图文编辑SOTA，多模态AIGC进入可用级时代。

视频生成 TTS 图像编辑多模态 AIGC

2025-09-11

多模态内容生成升级

YouTube全球上线AI配音功能，视频观看时长提升25%；B站开源IndexTTS-2.0实现情感与时长可控语音；Stability AI推出Stable Audio 2.5，快手Kwali一句话生成短视频，多模态AIGC在音频、视频、3D渲染领域同时跃进，内容生产门槛进一步降低。

AI配音 IndexTTS Stable Audio 多模态生成内容生产

2025-09-08

多模态创作工具爆发

字节Seedream 4.0、即梦图片4.0、PixVerse V5、Snapchat AI滤镜等密集上线，文生图、图生视频、语音合成一站式打通，创作者门槛骤降，内容生态迎来AI原生爆款潮。

多模态内容创作文生图图生视频 TTS

2025-05-16

模型架构与训练效率突破

DeepSeek-V3 论文公开低成本训练细节，MiniMax Speech-02 登顶 TTS 榜单，字节 Seed 提出 AttentionInfluence 数据筛选，港科大-vivo PreSelect 提升数据效率 10 倍，共同推高大模型性能天花板并降低算力门槛。

低成本训练数据筛选 MiniMax TTS DeepSeek

2025-05-15

语音模型人格化浪潮

MiniMax新一代语音模型横扫OpenAI、ElevenLabs登顶，Stability AI开源341M超轻TTS可在手机8秒出音频，讯飞AI耳机三年调用破千亿次，人格化、低延迟、端侧部署成为语音赛道新门槛。

语音合成 MiniMax TTS 端侧人格化

2025-04-02

语音&音乐AI新场景落地

MiniMax Speech-02支持20万字符超长语音合成，ElevenLabs推出“Text To Bark”犬类语音模型，百度跨模态端到端交互成本降90%，Reply举办AI音乐大赛，语音生成从“能听”走向“好用”并切入情感陪伴与创意生产。

语音合成 TTS 多模态交互 AI音乐 MiniMax

2025-02-27

语音多模态交互升级

声网2行代码让任意大模型秒变实时语音对话；Hume Octave情感TTS、ElevenLabs Scribe英语转写准确率96.7%、B站IndexTTS支持拼音纠正，多模态交互从“能听会说”走向“懂情知境”。

语音交互 TTS 情感实时转写

2024-08-13

多模态与3D内容生成新工具

开源视频工具Clapper、SV4D、快手「飞船」等让“零拍摄”生成多帧一致的视频、3D动态内容成为现实，配合TTS方言模型，大幅降低短视频、虚拟人、元宇宙内容创作门槛。

视频生成 3D内容 Clapper SV4D 方言TTS

2024-06-28

数字人与AI语音商业化加速

硅基智能开源Duix平台、ToucanTTS支持7000种语言、Instagram与Meta推出AI Studio，让个人与企业可低成本打造数字分身与合成语音，虚拟主播、客服、社交陪伴场景快速落地。

数字人 Duix ToucanTTS AIStudio 语音合成

2024-05-31

AI应用与内容创作爆发

百度文库集成多模态大模型打造内容创作超级玩家，ChatTTS开源三天斩获9k星成语音天花板，半小时AI生成《龙猫》主角短片走红，SketchDream线稿秒变3D，显示AIGC正降低创作门槛，个人IP与短视频生态将被重塑。

AIGC 内容创作 ChatTTS 3D生成百度文库

2024-03-16

语音与多模态交互工具创新

TTS擂台提供公开众测平台推动语音合成质量评估，DragAnything实现“任意拖动物体”视频控制，腾讯混元图生视频一键局部运动，降低创作门槛，多模态交互进入UGC爆发前夜。

TTS 多模态视频生成 UGC 交互

2024-02-16

生成式AI效率革命

Stable Cascade把SDXL推理速度提升一倍且9GB显存可跑；亚马逊10万小时训练10亿参数BASE TTS实现语音生成“智能涌现”；PopAi一键生成PPT，显示AIGC正走向低成本、高可用、场景化落地。

StableCascade BASE-TTS 推理优化 AIGC 成本下降

# TTS