AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
模型缺陷
相关话题
2024-07-18
大模型评测与缺陷暴露
多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象,贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架,揭示高分低能与token偏见问题,推动行业重新审视模型可靠性与评测标准。
大模型评测
数学推理
基准测试
模型缺陷
2024-07-17
大模型基础能力短板暴露
多家主流大模型在简单数字比较、视觉基础测试中出现集体翻车,暴露当前LLM与VLM在符号推理、细粒度视觉理解等基础能力上的共性缺陷,引发行业对模型评估与安全边界的重新审视。
数字比较
视觉理解
模型缺陷
安全边界