模型缺陷 - AI话题

2024-07-18

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象，贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架，揭示高分低能与token偏见问题，推动行业重新审视模型可靠性与评测标准。

2024-07-17

多家主流大模型在简单数字比较、视觉基础测试中出现集体翻车，暴露当前LLM与VLM在符号推理、细粒度视觉理解等基础能力上的共性缺陷，引发行业对模型评估与安全边界的重新审视。

AI快开门