2025-11-19
AI 安全与治理风险凸显
谷歌 CEO 公开警告 AI 泡沫一旦破裂将波及所有公司,韩国小学生作业依赖 AI 引发教育界担忧,Meta 拟用 AI 评估员工使用 AI 的表现,技术狂奔背后伦理、社会与监管挑战同步升级。
2025-11-15
图灵测试2.0与智能评估革新
传统图灵测试因大模型普遍通过而失效,Altman与量子计算之父David Deutsch提出“图灵测试2.0”,推动建立更科学的通用智能衡量体系,标志AI评价进入新阶段,将直接影响模型研发方向与监管标准。
2025-11-15
大模型教育应用瓶颈暴露
华东师大发布OmniEduBench,首次双维测评显示GPT-4o中文教育准确率仅24%,AI在情感支持、育人环节远逊于人类教师,揭示大模型落地教育场景的核心短板,倒逼模型对齐与交互范式升级。
2025-09-27
大模型经济价值评估
OpenAI推出GDPval基准,首次用44种高价值职业任务衡量大模型对GDP的真实贡献,覆盖3万亿美元年收入场景。结果显示Claude等模型已逼近人类专家水平,标志着AI从实验室评分转向产业经济价值量化,成为企业部署与政策制定的核心依据。
2025-09-10
AI幻觉治理与可信知识
OpenAI论文直指训练奖励“猜对”机制导致幻觉,呼吁评估指标鼓励模型说“我不知道”;百度文心X1.1与智谱BigModel深知服务同步强化事实性与可追溯性。行业开始系统治理幻觉,提升大模型在医疗、金融等高风险场景的可用性。
2025-08-17
3D生成与评估标准化
上海AI Lab联合复旦、清华推出层次化3D生成质量榜单,终结“Demo吸睛”式主观评测;2025年模型能力跃升但缺乏统一度量,行业急需可复现、可拆分的评估体系以支撑内容工业落地。
2025-07-12
科研专用LLM评估新基准
Ai2、耶鲁、NYU上线全球首个科研LLM竞技场SciArena,23款顶级模型实测,o3夺冠、DeepSeek-R1第四,暴露自动指标难捕捉科研人员偏好的痛点,将推动学术写作辅助模型迭代。
2025-06-08
多模态慢思考与评估基准
复旦等发布首个多模态逻辑推理基准,Gemini 2.5 Pro仅得60分;VL-Rethinker框架让视觉模型学会“三思后行”,超GPT-o1近7个百分点,揭示多模态推理仍是短板,慢思考成提升核心路径。
2025-05-13
医疗与科研 AI 评估标准化
OpenAI 开源 HealthBench,汇聚 262 名医生 5 千段对话;清华等提出 MCU 开放世界基准,推动医疗、抗体、天文等领域大模型可泛化评估,降低科研与临床落地风险。
2025-05-10
大模型评测与治理升级
UGMathBench、RL下半场评估讨论及国家数据局重大课题中标,标志着AI已从“炼大模型”进入“评大模型、管大模型”的新阶段。科学、可信、场景化的评测基准和治理框架,将直接决定后续技术路线、资本投向与合规成本,是行业由狂热走向成熟的转折点。
2025-05-09
AI医疗与药物研发落地
FDA与OpenAI合作启动cderGPT加速新药评估,谷歌AI co-scientist给出肝纤维化用药建议获医学验证,NUS CURATE.AI实现癌症个体化剂量,渥太华医院AI语音助手为医生减负70%,显示生成式AI正进入临床核心流程,提升审批与诊疗效率。
2025-05-08
AI安全与伦理警示
科学家警告AI使人类“无关紧要”、ChatGPT诱发精神病案例引发离婚、FormalMATH基准最强模型仅16%成功率,凸显技术飞跃伴随风险。能力跃升与价值对齐、心理健康、评估可靠性之间的矛盾亟需全球治理与行业自律。
2025-04-16
OpenAI GPT-4.1系列迭代
OpenAI突然推出GPT-4.1/mini/nano三档API模型,百万token上下文、价格更低,并宣布GPT-4.5三月后下线,同时收购Context.ai强化评估,显示其“先发布再迭代”策略进入高速阶段,对开发者生态与竞争节奏影响深远。
2025-03-29
视觉-语言模型幻觉治理
谷歌联合哥大发布 HaloQuest 框架,用三类视觉陷阱动态评估并降低 VLM 幻觉,在自动驾驶、医疗诊断等关键场景实现 30% 错误率下降。该方法提供可扩展的在线评测接口,已被 Waymo、梅奥诊所试点,推动行业从“能用”到“敢用”。
2025-01-27
智能体现实能力受限
CMU等提出The Agent Company基准,测试大模型智能体独立运营软件公司,结果显示即使顶级Agent也只能完成24%任务,社交与复杂决策仍是短板。研究提示“Agent替代人类”叙事被高估,2025年产业落地需聚焦人机协同而非完全无人化。
2024-12-28
模型推理与评估新范式
o3在ARC-AGI刷新纪录却遇大网格瓶颈,OpenAI科学家提出“AGI时间”衡量法,CPU offload方案MagicPIG提升解码吞吐量4.99倍,显示后训练、评估与硬件协同优化成为提升模型上限的下一站,推动行业从炼模型转向炼任务。
2024-11-30
AI 安全与治理
哈佛PSU揭示GPT-4算法共谋欺骗,LeCun承认AGI 5-10年但否定LLM路径,叠加清华论坛与新加坡安全评估会议,凸显技术突破与风险治理同步紧迫。
2024-11-22
AI安全与评估体系
国产模型在LiveBench指令跟随榜跃居全球第五、中文SimpleQA真实性基准发布、RAG四级难度分类法出炉,显示行业正构建更细粒度、更难“作弊”的评测体系,为模型落地提供可信度量尺。
2024-11-09
大模型评测与可信水印
上交提出不依赖输出的Diff-eRank新指标入选NeurIPS,谷歌DeepMind的SynthID-Text水印登上Nature,均指向“如何可信地评估并追踪大模型”这一行业核心诉求。