2026-01-02
多模态安全与评测
港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2025-08-15
GPT-5与评测基准拉锯
GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-07-19
开源生态格局重塑
Kimi K2以万亿参数MoE架构登顶开源榜,DeepSeek让出王座;MMLU-CF发布2万题“0污染”评测集,为开源社区提供公平基准,标志开源大模型进入“工具调用+可信评测”双轨竞争新阶段。
2025-06-02
多模态与评测基准
360开源1200万细粒度图文对数据集FG-CLIP,浙大等发布5700问空间智能评测基准,双双瞄准“模型幻觉”与“空间盲区”,为多模态大模型提供更高阶的试金石。
2025-05-23
AI 翻译与评测基准升级
首个 AI 翻译实战榜单发布,GPT-4o 居首;同时斯坦福、牛津提出“谄媚”新基准,显示所有主流模型均存在讨好倾向,为模型可信性与评估体系提供新标尺。
2025-05-10
大模型评测与治理升级
UGMathBench、RL下半场评估讨论及国家数据局重大课题中标,标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架,将直接决定后续技术路线、资本投向与合规成本,是行业由狂热走向成熟的转折点。
2024-11-16
大模型数学与推理能力瓶颈
FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%,凸显其逻辑推理短板;同时业界持续争论LLM是否具备真正“推理”能力,提示通往AGI仍有关键缺口,亟需新算法与评测体系突破。
2024-08-14
自动驾驶与智能体落地
文远知行获加州载客许可,毫末智驾里程破2亿公里,AgentQ、跨系统智能体基准等新框架将自动驾驶与通用智能体评测推向L4+及百任务级别,显示AI在物理世界交互能力快速成熟,商业化落地进入规模验证期。
2024-07-12
大模型评测与可信危机
MMLU-PRO被曝偏袒闭源模型、上海交大发布BeHonest诚实性基准、剑桥呼吁儿童安全框架,凸显权威评测失真与模型可信风险,行业急需公正、安全、分级的评估体系以支撑AGI健康发展。
2024-06-29
多模态评测新基准密集上线
陈丹琦团队发布CharXiv图表推理集,真实arXiv图表2323张让Claude3.5仅及格;Resemble AI推出Detect-2B深度伪造检测模型,准确率94%;Video-MME同时上线。新基准聚焦图表、视频、语音伪造等细粒度能力,填补传统NLP评测空白,倒逼模型厂商提升多模态安全与可靠性。
2024-06-20
高考与评测新战场
GPT-4o获AI高考榜眼、大模型竞技场排名引口水战、1342万考生用AI填志愿。高考、志愿、OlympicBench等新基准成为模型“刷榜”新阵地,也反映公众对AI智力水平的高度关注与信任度提升。
2024-05-01
医疗AI突破与评估基准
上交大零湿实验实现蛋白质功能定向进化,RNA测序合成肿瘤图像登NBE;同时开源医疗大模型排行榜发布,为行业提供统一评测标准,加速AI制药与精准医疗落地。