2026-01-02
多模态安全与评测
港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench,揭示语调、语速即可攻破大音频模型;VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时,安全与评测体系同步升级。
2025-07-20
大模型极限压力与鲁棒性研究
清华&上海AI Lab提出REST框架,通过多任务并发输入暴露DeepSeek等模型性能骤降近30%;谷歌DeepMind亦证实GPT-4o在遭遇反对意见时易放弃正确答案,凸显大模型鲁棒性与可信度短板。
2025-07-06
AI情感陪伴与伦理风险
年轻人把AI当“完美伴侣”引发情感依赖,同期大模型被无关猫句干扰导致错误率飙升300%,揭示情感化交互与鲁棒性缺失并存。技术红利背后,心理依赖、认知偏差与安全漏洞成为平台与监管必须同步应对的新伦理命题。
2025-07-05
AI生成内容泛滥
Nature研究称14%生物论文现AI痕迹,互联网出现“AI垃圾场”现象;数学题干插入无关词即可使主流模型错误率飙升300%,揭示大模型鲁棒性与可信内容治理新挑战。
2024-07-20
模型安全与自我提升逆转
上交GAIR发现多轮自我微调反致Llama、Mistral性能下滑;同时“过去式”提示可轻松突破GPT-4o等六大模型安全限制,攻击成功率飙至88%。自提升与对齐策略暴露脆弱性,为行业敲响警钟,安全与鲁棒性研究将成发布前必过关卡。
2024-05-18
AI治理与伦理风险
清华、上海交大等学者发文梳理人工智能全球治理新阶段特征与赤字,提出改革方向;同时研究显示大模型对虚假信息鲁棒性不足,78%输出受影响,凸显治理与技术同步紧迫性。
2024-03-08
大模型安全与治理
全国首部《生成式人工智能服务安全基本要求》发布,清华、智源等智库密集研讨AI治理框架,对抗鲁棒性、价值对齐成为AGI落地前的必答题,政策与标准进入集中制定期。