AI快开门

发现最好的AI工具

2025-07-20

大模型极限压力与鲁棒性研究

清华&上海AI Lab提出REST框架,通过多任务并发输入暴露DeepSeek等模型性能骤降近30%;谷歌DeepMind亦证实GPT-4o在遭遇反对意见时易放弃正确答案,凸显大模型鲁棒性与可信度短板。
2024-11-11

AI幻觉治理新发现

谷歌、苹果联合研究揭示LLM内部已编码正确答案却仍输出幻觉,真实性token高度集中;马里兰大学构建幻觉自动生成框架,为检测与矫正提供新靶点,有望提升大模型可信度。
2024-09-15

模型评测与基准危机

Reflection 模型被指成绩造假并道歉,MMLU-Pro 等新基准紧急上线,英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机,推动更严格、可解释的评价体系成为共识。