鲁棒性 - AI话题 - AI快开门

2026-01-02

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

2025-07-20

清华&上海AI Lab提出REST框架，通过多任务并发输入暴露DeepSeek等模型性能骤降近30%；谷歌DeepMind亦证实GPT-4o在遭遇反对意见时易放弃正确答案，凸显大模型鲁棒性与可信度短板。

2025-07-06

年轻人把AI当“完美伴侣”引发情感依赖，同期大模型被无关猫句干扰导致错误率飙升300%，揭示情感化交互与鲁棒性缺失并存。技术红利背后，心理依赖、认知偏差与安全漏洞成为平台与监管必须同步应对的新伦理命题。

2025-07-05

Nature研究称14%生物论文现AI痕迹，互联网出现“AI垃圾场”现象；数学题干插入无关词即可使主流模型错误率飙升300%，揭示大模型鲁棒性与可信内容治理新挑战。

2024-07-20

上交GAIR发现多轮自我微调反致Llama、Mistral性能下滑；同时“过去式”提示可轻松突破GPT-4o等六大模型安全限制，攻击成功率飙至88%。自提升与对齐策略暴露脆弱性，为行业敲响警钟，安全与鲁棒性研究将成发布前必过关卡。

2024-05-18

清华、上海交大等学者发文梳理人工智能全球治理新阶段特征与赤字，提出改革方向；同时研究显示大模型对虚假信息鲁棒性不足，78%输出受影响，凸显治理与技术同步紧迫性。

AI治理虚假信息鲁棒性全球治理

2024-03-08

全国首部《生成式人工智能服务安全基本要求》发布，清华、智源等智库密集研讨AI治理框架，对抗鲁棒性、价值对齐成为AGI落地前的必答题，政策与标准进入集中制定期。

2024-02-25

从NeurIPS spotlight的高斯部分信息分解到BAAI因果涌现读书会，因果推断正成为大模型可解释、鲁棒与科学计算的新支点。学界尝试用因果结构先验改进学习范式，工业界则关注其在医疗、决策等高 stakes 场景下的可靠性，2024年因果+AI进入“范式初探”到“落地验证”过渡期。

# 鲁棒性