2025-04-13 AI话题 - AI快开门

大模型评测与信任危机

Llama 4因“特供版”刷榜被重测后排名暴跌，引发社区对Meta诚信的质疑；同期强化学习推理模型被质疑改进仅为“噪音”，凸显行业对评测公正性与技术真实进展的焦虑。事件折射出大模型竞技缺乏统一标准，信任成本正在升高。

面壁&清华提出神经元级稀疏激活，手机可跑GPT级模型；上海AI Lab与西工大用4090实现大场景几何重建，显示端侧算力瓶颈正被算法创新打破。轻量化与稀疏化成为大模型落地新范式，为IoT、移动AR等应用打开空间。

MegaMath开源3710亿数学token，刷新最大高质量数学预训练数据集纪录；32B中文推理模型以1/20参数量击败DeepSeek-R1并免费商用，两大开源项目降低垂直领域门槛，有望催化教育、金融等行业的模型平民化。

谷歌DeepMind拟整合Gemini与Veo打造全能助手；3D「源神」开源部件编辑与自动绑定框架，加上苹果揭示原生多模态Scaling Laws，显示多模态交互与3D内容生产进入工具链成熟阶段，将加速影视、游戏、XR内容爆发。

a16z报告指出AI数字人技术基本Ready，应用层即将爆发；OmniHuman-1与GPT-4o+吉卜力风格主播视频获百万播放，验证多模态数字人内容吸引力。低成本生成、实时驱动将重塑直播、客服、营销场景，成为十亿级新赛道。

前OpenAI员工公开指控公司重组背离非营利使命；马斯克X因违规使用用户数据训练Grok遭调查。两大事件提醒行业：快速商业化与数据饥渴正在触碰监管与伦理红线，治理框架滞后可能带来政策重锤。

华为发布昇腾原生盘古Ultra 135B稠密模型，摆脱英伟达GPU依赖；国内团队接连开源中文SOTA推理模型与数学数据集，显示国产芯片+模型生态正在闭环。中美算力受限背景下，自主可控成为战略高地。

V-Droid验证器驱动架构刷新AndroidWorld任务成功率，移动GUI自动化迈向实用；Nat. Mach. Intell.发布大规模生物医学知识图谱iKraph，为科研提供超人工精度检索。AI正从通用对话下沉到专业操作与知识管理。