2026-03-24

学术规范与模型评测

高校严控论文AI生成核心观点,NeurIPS限制华为等机构投稿,ReVeL等新评测框架提出,AI科研诚信、评测透明度与公平性成为焦点。
2024-07-03

国产大模型技术突破与评测升级

DeepSeek-V2-Chat、孟子、腾讯元宝、TRANSAGENTS等国产模型在数学、长文本、翻译等场景逼近或超越GPT-4;北大KIEval提出动态交互评测框架,揭示“刷榜”水分,推动国产大模型从参数竞赛走向可信、可用、可持续迭代。