模型评估 - AI话题

2026-03-08

Claude两周自动挖出火狐22个漏洞含14个高危；187篇论文因“套壳API”数据污染导致准确率暴跌；Anthropic发布劳动力影响新框架，AI评估、安全与可复现性成为学术与产业共同焦点。

2025-05-08

科学家警告AI使人类“无关紧要”、ChatGPT诱发精神病案例引发离婚、FormalMATH基准最强模型仅16%成功率，凸显技术飞跃伴随风险。能力跃升与价值对齐、心理健康、评估可靠性之间的矛盾亟需全球治理与行业自律。

2025-04-16

OpenAI突然推出GPT-4.1/mini/nano三档API模型，百万token上下文、价格更低，并宣布GPT-4.5三月后下线，同时收购Context.ai强化评估，显示其“先发布再迭代”策略进入高速阶段，对开发者生态与竞争节奏影响深远。

2024-11-22

国产模型在LiveBench指令跟随榜跃居全球第五、中文SimpleQA真实性基准发布、RAG四级难度分类法出炉，显示行业正构建更细粒度、更难“作弊”的评测体系，为模型落地提供可信度量尺。

2024-11-09

上交提出不依赖输出的Diff-eRank新指标入选NeurIPS，谷歌DeepMind的SynthID-Text水印登上Nature，均指向“如何可信地评估并追踪大模型”这一行业核心诉求。

2024-09-15

Reflection 模型被指成绩造假并道歉，MMLU-Pro 等新基准紧急上线，英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机，推动更严格、可解释的评价体系成为共识。

2024-05-31

Scale AI推出私有专家数据SEAL排行榜，27岁华裔创始人王Alexandr挑战UC伯克利权威，OpenAI研究员Jason Wei长文解读LLM评估方法论，反映业界对“唯基准论”的反思，推动大模型评测向更严谨、动态、场景化方向演进。

AI快开门