2026-04-25

AI 科研评价与夜间鲁棒性挑战

AI Scientist 被警示陷入静态评测应试优化,扭曲科研本质;同期 EgoNight 基准揭示模型夜间第一人称视觉能力骤降,呼吁构建动态、鲁棒的科研与评测新体系。