2025-04-13
大模型评测与信任危机
Llama 4因“特供版”刷榜被重测后排名暴跌,引发社区对Meta诚信的质疑;同期强化学习推理模型被质疑改进仅为“噪音”,凸显行业对评测公正性与技术真实进展的焦虑。事件折射出大模型竞技缺乏统一标准,信任成本正在升高。
2025-03-04
大模型竞技升级
Claude 3.7、Grok-3、GPT-4.5轮番刷新竞技场榜单,模型能力在代码、游戏、社交推理等场景展开激烈比拼,标志着通用大模型进入“多模态+强推理”新阶段,直接牵动开发者生态与资本走向。
2025-02-07
Gemini 2.0全家桶反击
谷歌密集发布Gemini 2.0 Pro/Flash/Flash-Lite,原生多模态、2M上下文、编程与物理模拟能力刷新SOTA,竞技场霸榜,被视作对DeepSeek与ChatGPT的双线反击。