2026-04-04

AI评测范式革命

从静态刷榜到动态博弈,AI评测正在“实战化”。Kaggle推出AI大逃杀,让模型在狼人杀、德州扑克中互骗互杀;普林斯顿等则在Nature提出18维“通用量表”,强调可解释与跨任务泛化。评测重心由“做题家”转向社交欺骗、心理博弈与真实场景可靠性,将直接影响模型迭代方向与行业选型标准。
2026-03-24

学术规范与模型评测

高校严控论文AI生成核心观点,NeurIPS限制华为等机构投稿,ReVeL等新评测框架提出,AI科研诚信、评测透明度与公平性成为焦点。
2026-03-18

具身智能评测与商业化前夜

CVPR2026新基准、ManipArena挑战赛、机器人租赁亿元融资等显示具身智能正从实验室走向真机评测与场景落地,但“ChatGPT时刻”仍需2-3年。
2026-03-15

底层架构与评测革新

哈工深提出模长感知线性注意力,显存直降92.3%;MIT新算法挑战“后训练RL已死”共识;CVPR 2026论文用视觉Token变化量无损加速VLM 1.87倍;arXiv宣布脱离康奈尔独立并招聘CEO,底层算法、评测与知识分发体系同步洗牌。
2026-02-21

代码模型评测革新

北航开源Code2Bench,用“双扩展”动态题库破解代码大模型刷榜顽疾,推动评测从静态基准走向持续对抗,有望提升社区对模型真实编程能力的信任度。
2026-01-20

AI医疗取证与评测突破

BioticsAI胎儿超声AI获FDA批准,清华联合发布科研智能体系统,蚂蚁阿福上线DeepSearch。从产前筛查到科研辅助,AI医疗进入“可验证、可解释、可落地”阶段,评测标准与证据等级成为新焦点。
2026-01-19

具身智能评测与落地

李飞飞World Labs联合光轮智能打造全球首个高保真具身智能评测体系,奇瑞30国落地墨甲机器人,MiniMax设硬件子公司,标志机器人产业从“秀demo”进入“可量化、可规模、可商用”阶段,仿真-评测-量产闭环成型。
2026-01-13

国产医疗大模型突破

百川智能开源Baichuan-M3,在多项医学评测中综合表现超越GPT-5.2,部分指标优于人类医生,标志着国产大模型在垂直医疗场景实现关键突破,为AI临床落地打开新空间。
2026-01-08

模型评测与后训练新范式

LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2025-11-23

大模型评测与PC端革新

卡帕西推出匿名横评玩法,四大模型盲评结果出人意料;同时AI打破PC性能天花板,终端侧大模型体验升级,推动消费级硬件进入“AI原生”时代。
2025-10-19

AGI定义与评测标准出炉

Bengio牵头发布《A Definition of AGI》,提出可度量、跨任务、超人类性能的量化框架,当前进度条58%,为行业提供统一坐标系,减少“AGI滥用”争议。
2025-09-01

顶尖模型“降智”翻车引信任危机

Anthropic承认Claude Opus 4.1“白天退化”,OpenAI GPT-5被井字棋考倒,Meta与Scale AI合作破裂,连串事件暴露大模型可靠性短板,用户信任与商业落地风险陡增,行业开始反思评测标准与迭代节奏。
2025-08-24

AI训练数据透明化

上海AI实验室推出全球首个大模型数据竞技场OpenDataArena,通过公开可复现的数据评测对抗“炼丹玄学”。平台提供统一基准与实时排行榜,降低社区试错成本,有望推动行业从暴力堆参数转向精细数据工程。
2025-08-16

机器人产业链集结

FAIR plus 2026发布会与多档标准评测亮相,3D生成质量榜单、提示词多样性技巧、宇树机器人“撞人逃逸”事件等,显示硬件-算法-场景全链条正加速标准化与商业化。
2025-08-15

GPT-5与评测基准拉锯

GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-08-08

GPT-5全面免费开放

OpenAI发布迄今最强旗舰GPT-5,提供多模态、多版本并首次向全体用户免费开放,同步上线API、GitHub Copilot与各大生态,登顶LMArena刷新评测纪录,标志大模型进入普惠与性能并重的新阶段。
2025-08-08

模型评测与基准升级

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-07-19

开源生态格局重塑

Kimi K2以万亿参数MoE架构登顶开源榜,DeepSeek让出王座;MMLU-CF发布2万题“0污染”评测集,为开源社区提供公平基准,标志开源大模型进入“工具调用+可信评测”双轨竞争新阶段。
2025-06-26

国产大模型高考秀肌肉

豆包AI文科683分达清北线,Gemini、豆包分获山东卷文理第一,夸克“深度搜索”借高考志愿咨询日均调用4次,大模型在权威评测与真实场景双重验证中展现国产实力。