Agent评估 - AI话题

2025-01-27

CMU等提出The Agent Company基准，测试大模型智能体独立运营软件公司，结果显示即使顶级Agent也只能完成24%任务，社交与复杂决策仍是短板。研究提示“Agent替代人类”叙事被高估，2025年产业落地需聚焦人机协同而非完全无人化。

AI快开门