2024-04-07 AI话题 - AI快开门

大模型架构与效率突破

谷歌DeepMind连续抛出Mixture-of-Depths（MoD）Transformer与ReadAgent长文本框架，通过动态计算分配和“先摘要后回忆”策略，将推理速度提升50%、有效上下文扩展20倍；MIT/普林斯顿JetMoE则以10万美元成本逼近Llama-2性能，验证MoE+开源数据的小模型路线，为行业降本增效提供可复现范式。

多模态理解与生成新SOTA

MiniGPT4-Video 天工SkyMusic AniPortrait 视频理解音乐生成

MiniGPT4-Video实现复杂视频诗意配文，刷新视频理解SOTA；国产天工SkyMusic采用Sora同款DiT架构，推出中文音乐版“ChatGPT”，补齐中文发音与情感表现力短板；腾讯AniPortrait让照片一键唱歌说话，多模态AIGC从理解到生成全面开花，预示短视频、广告、UGC内容生产流程将被重塑。

GPT-5与下一代模型竞速

GPT-5 红队测试阿里32B 端侧模型开源

OpenAI被曝已启动GPT-5红队测试，最早6月发布，同期“星际之门”数十亿美元超算计划浮出水面；国内阿里开源32B模型，斯坦福团队手机端大模型一夜下载破2k，模型参数与部署场景双线下探，预示2024年大模型竞争从“拼参数”进入“拼落地、拼成本”的新阶段。

情感与垂直领域AI落地

情感AI 化学大模型家用机器人 AI硬件垂直落地

Hume AI发布全球首款“共情语音接口”，可识别53种情绪，拿下5000万美元B轮；思必驰联合上交大推出百亿级化学大模型，化学能力超越GPT-4；苹果终止造车后押注家用机器人，Altman与前苹果设计总监筹资10亿美元打造“不像手机”的AI硬件，显示AI正向情感计算、科学研究与消费电子多线渗透。

AI安全与伦理风险

AI幻觉视觉漏洞联邦后门歧视偏见安全对齐

清华&NUS提出LLaVA-UHD揭示GPT-4V视觉编码漏洞，解释“AI幻觉”根源；ICLR 2024论文指出联邦学习后门攻击的关键层，Meta图像生成器被曝种族歧视拒绝白人亚洲人同框，提示随着模型能力跃升，安全、对齐与伦理问题正成为技术大规模商用的前置条件。

行业生态与人才流动

AIGC峰会英伟达课程人才招聘云平台生态

英伟达推出免费生成式AI课程，降低开发者门槛；中国AIGC产业峰会定档4月17日，汇聚技术与资本；小红书、Mistral等国内外公司扩招多模态算法岗、开放云平台模型服务，显示行业进入“应用落地+人才争夺”的加速期，生态上下游机会全面释放。

AI快开门

发现AI的无限可能