谷歌DeepMind连续抛出Mixture-of-Depths(MoD)Transformer与ReadAgent长文本框架,通过动态计算分配和“先摘要后回忆”策略,将推理速度提升50%、有效上下文扩展20倍;MIT/普林斯顿JetMoE则以10万美元成本逼近Llama-2性能,验证MoE+开源数据的小模型路线,为行业降本增效提供可复现范式。
MiniGPT4-Video实现复杂视频诗意配文,刷新视频理解SOTA;国产天工SkyMusic采用Sora同款DiT架构,推出中文音乐版“ChatGPT”,补齐中文发音与情感表现力短板;腾讯AniPortrait让照片一键唱歌说话,多模态AIGC从理解到生成全面开花,预示短视频、广告、UGC内容生产流程将被重塑。
OpenAI被曝已启动GPT-5红队测试,最早6月发布,同期“星际之门”数十亿美元超算计划浮出水面;国内阿里开源32B模型,斯坦福团队手机端大模型一夜下载破2k,模型参数与部署场景双线下探,预示2024年大模型竞争从“拼参数”进入“拼落地、拼成本”的新阶段。
Hume AI发布全球首款“共情语音接口”,可识别53种情绪,拿下5000万美元B轮;思必驰联合上交大推出百亿级化学大模型,化学能力超越GPT-4;苹果终止造车后押注家用机器人,Altman与前苹果设计总监筹资10亿美元打造“不像手机”的AI硬件,显示AI正向情感计算、科学研究与消费电子多线渗透。
清华&NUS提出LLaVA-UHD揭示GPT-4V视觉编码漏洞,解释“AI幻觉”根源;ICLR 2024论文指出联邦学习后门攻击的关键层,Meta图像生成器被曝种族歧视拒绝白人亚洲人同框,提示随着模型能力跃升,安全、对齐与伦理问题正成为技术大规模商用的前置条件。