开源基准 - AI话题 - AI快开门

2026-02-21

代码模型评测革新

北航开源Code2Bench，用“双扩展”动态题库破解代码大模型刷榜顽疾，推动评测从静态基准走向持续对抗，有望提升社区对模型真实编程能力的信任度。

代码大模型动态评测开源基准 ICLR