2026-02-21

代码模型评测革新

北航开源Code2Bench,用“双扩展”动态题库破解代码大模型刷榜顽疾,推动评测从静态基准走向持续对抗,有望提升社区对模型真实编程能力的信任度。