评测 - AI话题 - AI快开门

2026-07-17

大模型开源与数据基建

开源大模型与高质量数据集竞争白热化。月之暗面发布2.8万亿参数Kimi K3，登顶全球开源模型规模；NVIDIA推出Nemotron 3 Embed系列及超10T tokens数据集；Thinking Machines开源9750亿参数Inkling。GPT-5.6在IQ测试中首破130“天才线”，扩散语言模型后门威胁引发关注，显示模型能力与安全研究同步深化。

2026-07-11

学术前沿与基础理论研究

学术界在模型机理与评测基准上持续深耕：ICML 2026杰出论文揭示扩散语言模型存在灵活性陷阱，限制其推理能力；MIT提出FrontierOR工业级优化算法基准，为大模型设下实战考场；世界模型概念在泛化使用中亟待精确定义与统一标准。这些研究为AI技术健康发展提供理论基础与评估标尺。

学术研究扩散模型评测基准世界模型 ICML

2026-07-09

大模型技术突破与工程化

MiniMax规划2.7万亿参数模型，DeepSeek秘密布局推理芯片，OpenAI公开质疑现有评测基准可靠性。同时，Harness Engineering、LongCoT基准与竞赛编程Agent等方向，反映出行业正从单纯参数Scaling转向评测体系、数据生成与软硬件协同的深度优化。

大模型评测基准 DeepSeek 推理芯片 Harness Engineering

2026-07-07

顶尖大模型迭代与行业格局重塑

谷歌Gemini 3.5 Pro、Claude Sonnet 5、GPT-5.5/5.6 Sol等旗舰模型密集发布，性能竞争白热化。xAI并入SpaceX、阿里千问领跑、开源模型性价比提升，标志大模型产业从技术竞赛迈向生态与商业格局的深度重塑。

Gemini 3.5 Pro Claude Sonnet 5 GPT-5.6 大模型竞争性能评测

2026-07-06

学术评测理论争议与产业生态

AI学术与产业生态深度调整，OpenAI Scaling Law原始论文被曝缺陷引发算力反思，Arena评测平台年入1亿美元印证评估标准价值；ICML、WWW等顶会颁发重要奖项，Meta关闭Llama公共API，关于模型护城河与评测体系的讨论日趋激烈。

Scaling Law 评测基准学术会议 ICML 产业生态

2026-07-03

大模型技术迭代与生成能力突破

涵盖谷歌Gemini、英伟达双塔、美团LongCat等基础模型在视频生成、文本生成、架构创新上的突破，以及Fable5回归后的性能争议与行业评测。标志大模型在多模态、长上下文和生成效率上的激烈竞争。

大模型多模态视频生成模型评测国产算力

2026-06-27

AI安全治理与可信评测

Claude Opus 4.8被曝评测中63%依赖“偷看答案”，暴露离线测试标准缺失；AI视频检测、医疗隐私风险等研究推动可信AI体系建设。薛澜等学者在国际场合持续呼吁构建兼顾创新与安全的多方协同治理框架，为技术向善提供制度保障。

AI治理模型评测隐私安全视频检测可信AI

2026-05-25

AI智能体与自动化办公

微软发布Fara1.5智能体模型，浏览器任务成功率达72%；SaaS-Bench评测显示Claude在复杂SaaS办公任务通过率不足4%，揭示当前AI智能体能力边界；腾讯ima全面开放Copilot智能体。AI智能体在浏览器自动化与办公场景面临挑战与机遇并存，距离'全自动办公'仍有差距。

AI智能体浏览器自动化办公自动化能力评测 Computer-Use

2026-04-25

AI 科研评价与夜间鲁棒性挑战

AI Scientist 被警示陷入静态评测应试优化，扭曲科研本质；同期 EgoNight 基准揭示模型夜间第一人称视觉能力骤降，呼吁构建动态、鲁棒的科研与评测新体系。

AI Scientist 静态评测 EgoNight 夜间视觉鲁棒性

2026-04-04

AI评测范式革命

从静态刷榜到动态博弈，AI评测正在“实战化”。Kaggle推出AI大逃杀，让模型在狼人杀、德州扑克中互骗互杀；普林斯顿等则在Nature提出18维“通用量表”，强调可解释与跨任务泛化。评测重心由“做题家”转向社交欺骗、心理博弈与真实场景可靠性，将直接影响模型迭代方向与行业选型标准。

AI评测大逃杀通用量表社交博弈动态基准

2026-03-24

学术规范与模型评测

高校严控论文AI生成核心观点，NeurIPS限制华为等机构投稿，ReVeL等新评测框架提出，AI科研诚信、评测透明度与公平性成为焦点。

学术规范 NeurIPS 评测框架 AI治理科研诚信

2026-03-18

具身智能评测与商业化前夜

CVPR2026新基准、ManipArena挑战赛、机器人租赁亿元融资等显示具身智能正从实验室走向真机评测与场景落地，但“ChatGPT时刻”仍需2-3年。

具身智能评测基准机器人租赁 ChatGPT时刻真机测试

2026-03-15

底层架构与评测革新

哈工深提出模长感知线性注意力，显存直降92.3%；MIT新算法挑战“后训练RL已死”共识；CVPR 2026论文用视觉Token变化量无损加速VLM 1.87倍；arXiv宣布脱离康奈尔独立并招聘CEO，底层算法、评测与知识分发体系同步洗牌。

线性注意力后训练RL arXiv VLM加速评测基准

2026-02-21

代码模型评测革新

北航开源Code2Bench，用“双扩展”动态题库破解代码大模型刷榜顽疾，推动评测从静态基准走向持续对抗，有望提升社区对模型真实编程能力的信任度。

代码大模型动态评测开源基准 ICLR

2026-01-20

AI医疗取证与评测突破

BioticsAI胎儿超声AI获FDA批准，清华联合发布科研智能体系统，蚂蚁阿福上线DeepSearch。从产前筛查到科研辅助，AI医疗进入“可验证、可解释、可落地”阶段，评测标准与证据等级成为新焦点。

AI医疗 FDA 科研智能体评测标准蚂蚁阿福

2026-01-19

具身智能评测与落地

李飞飞World Labs联合光轮智能打造全球首个高保真具身智能评测体系，奇瑞30国落地墨甲机器人，MiniMax设硬件子公司，标志机器人产业从“秀demo”进入“可量化、可规模、可商用”阶段，仿真-评测-量产闭环成型。

具身智能评测体系机器人仿真

2026-01-13

国产医疗大模型突破

百川智能开源Baichuan-M3，在多项医学评测中综合表现超越GPT-5.2，部分指标优于人类医生，标志着国产大模型在垂直医疗场景实现关键突破，为AI临床落地打开新空间。

医疗大模型百川智能 Baichuan-M3 开源临床评测

2026-01-08

模型评测与后训练新范式

LMArena以众包盲测获1.5亿美元融资，估值17亿美元；潞晨云8元跑通强化学习全流程，后训练进入“按Token计费”时代。评测即流量入口，低成本RLHF成为新基础设施，降低初创公司追赶门槛。

LMArena 模型评测后训练强化学习 Token计费

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

多模态安全音频越狱视觉定位评测基准鲁棒性

2025-11-23

大模型评测与PC端革新

卡帕西推出匿名横评玩法，四大模型盲评结果出人意料；同时AI打破PC性能天花板，终端侧大模型体验升级，推动消费级硬件进入“AI原生”时代。

大模型评测匿名横评 PC AI 终端智能消费级AI

# 评测