评测框架 - AI话题

2026-03-24

高校严控论文AI生成核心观点，NeurIPS限制华为等机构投稿，ReVeL等新评测框架提出，AI科研诚信、评测透明度与公平性成为焦点。

2024-07-03

DeepSeek-V2-Chat、孟子、腾讯元宝、TRANSAGENTS等国产模型在数学、长文本、翻译等场景逼近或超越GPT-4；北大KIEval提出动态交互评测框架，揭示“刷榜”水分，推动国产大模型从参数竞赛走向可信、可用、可持续迭代。

AI快开门