2026-02-21
代码模型评测革新
北航开源Code2Bench,用“双扩展”动态题库破解代码大模型刷榜顽疾,推动评测从静态基准走向持续对抗,有望提升社区对模型真实编程能力的信任度。
2026-02-09
顶级大模型性能争霸
Anthropic Claude Opus 4.6 在多项基准反超 GPT-5.2,阿里 Qwen3.5 将开源原生多模态版本,神秘 Pony Alpha 免费上线性能爆表,头部模型迭代速度缩短至季度级,能力边界从文本扩展到视觉、语音、科学推理全场景。
2026-02-08
编程模型巅峰对决
OpenAI GPT-5.3-Codex与Anthropic Claude Opus 4.6同日发布,在Arena、Epoch双榜互有胜负,折射大模型编程能力评估复杂度,也预示代码生成进入“速度+稳健”双轨竞争新阶段。
2026-01-18
谷歌AI逆袭与模型争霸
从2012年秘密竞购DeepMind到2025年Nano Banana登顶LMArena,谷歌十三年技术积累终迎反超;OpenAI同期陷入治理诉讼与人才回流,全球基础模型竞争进入白热化洗牌期,预示2026年格局仍存巨大变数。
2026-01-02
多模态安全与评测
港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2026-01-01
AI+生物与医疗新进展
RNA预训练大模型基准发布,DNA-Diffusion生成式框架设计合成调控元件,UniCardio扩散Transformer统一生成多模态心血管信号,AI正成为基因组学与可穿戴医疗的核心生产力工具。
2025-12-27
AI治理与伦理提速
清华梁正连续出席无人系统伦理论坛与国家战略研讨会,WildVideo基准系统定义9类幻觉任务,全球同步把“安全、可控、负责任”从口号变成标准与法规,为AI大规模落地划红线。
2025-12-16
医疗AI专业化突破
南洋理工发布首个电子病历评测基准EHRStruct,北大推出多模态化学基准SUPERChem,OpenEvidence再获2.5亿美元融资估值120亿美元,国内OCT影像AI系统临床PK击败GPT-5,显示大模型在严肃医疗场景加速落地并逼近专家水平。
2025-12-13
谷歌Gemini深度研究反击
谷歌借Gemini 3 Pro推出增强版Deep Research智能体,主打低幻觉、复杂信息检索与多平台集成,并发布DeepSearchQA基准,意在以研究能力对抗GPT-5.2。此举显示搜索巨头正把模型优势快速产品化,争夺企业级知识工作入口。
2025-11-24
Gemini 3 反超 GPT 夺王座
谷歌 Gemini 3 系列(Pro/Nano)在 LMArena、数学与物理基准全面领先,获陶哲轩等顶尖学者实测背书,迫使 OpenAI 承认技不如人并加速推出“Shallotpeat”应对,标志着大模型竞赛进入谷歌反攻新阶段,行业格局面临重塑。
2025-11-20
Gemini 3系列震撼发布
谷歌连续推出Gemini 3 Pro/3.0及Nano Banana Pro,在代码、数学、多模态基准全面超越GPT-5.1,被业界视为“AGI级”里程碑,引爆全球模型军备竞赛,直接促使OpenAI紧急上线GPT-5.1-Codex-Max应对。
2025-11-16
大模型可解释性与安全对齐
OpenAI重启“开放”节奏,发布可解释性新方法,让小模型透明化以窥视大模型内部机制;NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务,为AGI安全铺路。
2025-11-16
游戏与Agent通用智能探索
字节跳动Lumine在《原神》《黑悟空》等复杂开放世界实现零样本通关,NeurIPS同步聚焦通用游戏Agent基准。高自由度游戏被视为多模态决策的“试车场”,其泛化能力指标被业内视为AGI进度条之一。
2025-10-18
具身智能与机器人数据革命
穹彻智能获阿里新融资、RoboChallenge真机基准、上海交大400元U-Arm遥操开源,从资本、评测到数据链路全面提速。低成本遥操+统一真机测试场,有望快速积累高质量机器人多模态数据,推动“实验室智能”走向“现实世界可复制”。
2025-09-23
编程模型集体“挂科”引反思
SWE-Bench Pro新基准测试显示,GPT-5、Claude Opus 4.1、Gemini 2.5在真实复杂编程任务中正确率均低于25%。暴露出当前大模型在长程逻辑、需求理解、代码可维护性上的系统性短板,促使行业重新评估“代码智能”评价指标,并加速神经-符号混合、强化学习新范式的研究投入。
2025-08-24
AI训练数据透明化
上海AI实验室推出全球首个大模型数据竞技场OpenDataArena,通过公开可复现的数据评测对抗“炼丹玄学”。平台提供统一基准与实时排行榜,降低社区试错成本,有望推动行业从暴力堆参数转向精细数据工程。
2025-08-15
GPT-5与评测基准拉锯
GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-08-08
模型评测与基准升级
GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-07-31
GPT-5 即将发布
多条信源指向 OpenAI 下一代旗舰模型 GPT-5(内部代号 Zenith)已进入客户端灰度测试,统一 GPT 与 o 系列架构,在 Minecraft 等基准中表现“魔法级”。若如期发布,将刷新大模型性能天花板并再度搅动全球 AI 竞赛格局。