2025-01-27
智能体现实能力受限
CMU等提出The Agent Company基准,测试大模型智能体独立运营软件公司,结果显示即使顶级Agent也只能完成24%任务,社交与复杂决策仍是短板。研究提示“Agent替代人类”叙事被高估,2025年产业落地需聚焦人机协同而非完全无人化。
2024-02-13
多模态Agent与自动驾驶评测
CMU发布Web Agent基准,普渡实车验证GPT-4驾驶能力,显示多模态大模型已具备在线决策与实时控制潜力,为自动驾驶、网页交互确立新评测与落地路径。