多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象,贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架,揭示高分低能与token偏见问题,推动行业重新审视模型可靠性与评测标准。
微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制,在8B甚至更小参数下逼近7B+模型性能,挑战传统Scaling Law,为端侧和低成本训练提供新路径。
Domo AI唇形同步升级、MSRA视频上下文学习、无编码器多模态大模型EVE等进展,显著提升了视频风格化、可控生成与跨模态理解能力,为短视频、影视及元宇宙内容生产降本增效。
OpenAI超级对齐团队“遗作”提出双模型博弈机制,PVG技术用小模型验证大模型输出,提升可读性与可信度,为日益增长的模型幻觉问题提供可落地的安全方案。
Karpathy官宣Eureka Labs、沃恩智慧推出“沃研Turbo”科研大模型,结合大模型个性化辅导与论文全流程助手,标志AI正从工具升级为“原生教师”,重塑知识生产与人才培养模式。
三星AI空调、AI PC换机潮、Gemini锁屏问答、Claude安卓版等密集发布,显示大模型正加速向手机、家电、PC端渗透,推动边缘计算与低功耗芯片需求爆发。
Anthropic联合风投设立1亿美元基金、李飞飞World Labs估值破10亿美元、Meta因监管暂停欧盟多模态上线,显示资本持续押注AI独角兽,而地缘合规风险成为全球化扩张新变量。