基准操控 - AI话题

2025-05-02

斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta，Meta被曝提交27个Llama4版本仅取最高分，引发对大模型评测公正性的集体质疑，行业呼吁透明可审计的评测体系。

AI快开门