2026-01-13
国产医疗大模型突破
百川智能开源Baichuan-M3,在多项医学评测中综合表现超越GPT-5.2,部分指标优于人类医生,标志着国产大模型在垂直医疗场景实现关键突破,为AI临床落地打开新空间。
2026-01-08
模型评测与后训练新范式
LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2026-01-02
多模态安全与评测
港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2025-11-23
大模型评测与PC端革新
卡帕西推出匿名横评玩法,四大模型盲评结果出人意料;同时AI打破PC性能天花板,终端侧大模型体验升级,推动消费级硬件进入“AI原生”时代。
2025-10-19
AGI定义与评测标准出炉
Bengio牵头发布《A Definition of AGI》,提出可度量、跨任务、超人类性能的量化框架,当前进度条58%,为行业提供统一坐标系,减少“AGI滥用”争议。
2025-09-01
顶尖模型“降智”翻车引信任危机
Anthropic承认Claude Opus 4.1“白天退化”,OpenAI GPT-5被井字棋考倒,Meta与Scale AI合作破裂,连串事件暴露大模型可靠性短板,用户信任与商业落地风险陡增,行业开始反思评测标准与迭代节奏。
2025-08-24
AI训练数据透明化
上海AI实验室推出全球首个大模型数据竞技场OpenDataArena,通过公开可复现的数据评测对抗“炼丹玄学”。平台提供统一基准与实时排行榜,降低社区试错成本,有望推动行业从暴力堆参数转向精细数据工程。
2025-08-16
机器人产业链集结
FAIR plus 2026发布会与多档标准评测亮相,3D生成质量榜单、提示词多样性技巧、宇树机器人“撞人逃逸”事件等,显示硬件-算法-场景全链条正加速标准化与商业化。
2025-08-15
GPT-5与评测基准拉锯
GPT-5、Grok 4、o3 Pro在博士级新基准上集体“零分”引发能力质疑;同时医疗推理测试GPT-5又超人类医生24%,凸显大模型能力评估体系分裂,行业呼吁统一标准。
2025-08-08
GPT-5全面免费开放
OpenAI发布迄今最强旗舰GPT-5,提供多模态、多版本并首次向全体用户免费开放,同步上线API、GitHub Copilot与各大生态,登顶LMArena刷新评测纪录,标志大模型进入普惠与性能并重的新阶段。
2025-08-08
模型评测与基准升级
GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-07-19
开源生态格局重塑
Kimi K2以万亿参数MoE架构登顶开源榜,DeepSeek让出王座;MMLU-CF发布2万题“0污染”评测集,为开源社区提供公平基准,标志开源大模型进入“工具调用+可信评测”双轨竞争新阶段。
2025-06-26
国产大模型高考秀肌肉
豆包AI文科683分达清北线,Gemini、豆包分获山东卷文理第一,夸克“深度搜索”借高考志愿咨询日均调用4次,大模型在权威评测与真实场景双重验证中展现国产实力。
2025-06-04
医疗AI专业化突破
斯坦福临床评测中,DeepSeek-R1以66%胜率超越GPT-4o、Gemini;国内知网AI、蚂蚁AI健康管家等上线,模型在真实诊疗场景落地,医疗垂直模型成为大模型最先规模化商用赛道之一。
2025-06-02
多模态与评测基准
360开源1200万细粒度图文对数据集FG-CLIP,浙大等发布5700问空间智能评测基准,双双瞄准“模型幻觉”与“空间盲区”,为多模态大模型提供更高阶的试金石。
2025-05-28
多模态模型视觉-物理推理短板暴露
清华-腾讯-斯坦福联合评测显示o3在视觉辅助线任务仅25.8%,港大等3000道物理题测试GPT-4o、Claude 3.7大幅落后本科生,揭示当前多模态大模型在物理推理、几何理解等“人类常识”维度仍远不及人类,为下一代模型优化指明关键方向。
2025-05-23
AI 翻译与评测基准升级
首个 AI 翻译实战榜单发布,GPT-4o 居首;同时斯坦福、牛津提出“谄媚”新基准,显示所有主流模型均存在讨好倾向,为模型可信性与评估体系提供新标尺。
2025-05-17
学术顶会趋势与评测革新
ACL 2025投稿破8000篇高分遭拒、General-Level提出多模态通才排行榜,反映AI研究量质齐升但评审内卷,呼唤更科学评测体系以引导资源聚焦真正通用智能突破。
2025-05-10
大模型评测与治理升级
UGMathBench、RL下半场评估讨论及国家数据局重大课题中标,标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架,将直接决定后续技术路线、资本投向与合规成本,是行业由狂热走向成熟的转折点。