2025-09-04
开发者工具与平台开源
Raycast推Cursor Agent插件、谷歌发布Gemini CLI GitHub Actions、nano banana官方Prompt模板、Step-Audio 2 mini端到端语音模型开源,以及PosterGen一键学术海报等,降低接入门槛,丰富AI工程化工具链,助力个人与企业快速构建AI应用,形成开源+商业混合生态。
2025-03-22
语音智能体价格战
OpenAI一夜连发多款语音转文本/文本转语音模型,API最低降至0.3美分/分钟,并上线体验站OpenAI.fm;Anthropic为Claude解锁实时网络搜索,语音交互与知识时效性双升级,宣告语音智能体进入低价普惠时代。
2024-09-11
多模态与视频生成
Vidu推出“主体参照”功能解决角色一致性痛点,快手可灵API接入蓝色光标心影平台,让AI视频生成进入实用级;同时语音模型战场升温,亚马逊用Claude升级Alexa,Cerebras发布闪电级语音模式,多模态交互体验再上台阶。
2024-08-10
垂直领域模型与数据
阿里Qwen2-Audio在多项语音任务超越OpenAI Whisper,德州大学联合NIH发布21.5万张X光问答数据集Medical-CXR-VQA,Fireworks提出可解释量化评估框架,显示大模型正快速向医疗、语音、数学等垂直场景深化,数据与评测方法同步升级。