2024-07-18 AI话题 - AI快开门

大模型评测与缺陷暴露

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象，贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架，揭示高分低能与token偏见问题，推动行业重新审视模型可靠性与评测标准。

微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制，在8B甚至更小参数下逼近7B+模型性能，挑战传统Scaling Law，为端侧和低成本训练提供新路径。

Domo AI唇形同步升级、MSRA视频上下文学习、无编码器多模态大模型EVE等进展，显著提升了视频风格化、可控生成与跨模态理解能力，为短视频、影视及元宇宙内容生产降本增效。

OpenAI超级对齐团队“遗作”提出双模型博弈机制，PVG技术用小模型验证大模型输出，提升可读性与可信度，为日益增长的模型幻觉问题提供可落地的安全方案。

Karpathy官宣Eureka Labs、沃恩智慧推出“沃研Turbo”科研大模型，结合大模型个性化辅导与论文全流程助手，标志AI正从工具升级为“原生教师”，重塑知识生产与人才培养模式。

三星AI空调、AI PC换机潮、Gemini锁屏问答、Claude安卓版等密集发布，显示大模型正加速向手机、家电、PC端渗透，推动边缘计算与低功耗芯片需求爆发。

Anthropic联合风投设立1亿美元基金、李飞飞World Labs估值破10亿美元、Meta因监管暂停欧盟多模态上线，显示资本持续押注AI独角兽，而地缘合规风险成为全球化扩张新变量。