AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
评测体系
相关话题
2025-02-18
模型评测与基准
OpenAI推出SWE-Lancer真实软件工程基准,多模态新基准让GPT-4o得零分;北大几何模型基于DeepSeek-Coder达IMO金牌水平,刷新国产AI科研上限。
基准测试
IMO几何
SWE-Lancer
评测体系
科研突破