可信度 - AI话题 - AI快开门

2026-01-18

Cursor宣称AI 7天写出浏览器却被开发者打假，代码无法编译引发全网群嘲；事件再次暴露生成式AI在工程落地中的可靠性缺口，提醒行业警惕过度营销与“AI泔水”泡沫。

2025-07-20

清华&上海AI Lab提出REST框架，通过多任务并发输入暴露DeepSeek等模型性能骤降近30%；谷歌DeepMind亦证实GPT-4o在遭遇反对意见时易放弃正确答案，凸显大模型鲁棒性与可信度短板。

2024-11-11

谷歌、苹果联合研究揭示LLM内部已编码正确答案却仍输出幻觉，真实性token高度集中；马里兰大学构建幻觉自动生成框架，为检测与矫正提供新靶点，有望提升大模型可信度。

2024-09-15

Reflection 模型被指成绩造假并道歉，MMLU-Pro 等新基准紧急上线，英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机，推动更严格、可解释的评价体系成为共识。

# 可信度