AI快开门

发现最好的AI工具

2024-07-18

大模型评测与缺陷暴露

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象,贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架,揭示高分低能与token偏见问题,推动行业重新审视模型可靠性与评测标准。
2024-07-17

大模型基础能力短板暴露

多家主流大模型在简单数字比较、视觉基础测试中出现集体翻车,暴露当前LLM与VLM在符号推理、细粒度视觉理解等基础能力上的共性缺陷,引发行业对模型评估与安全边界的重新审视。