攻击 - AI话题 - AI快开门

2026-05-31

AI安全与对抗攻击防御

揭示当前AI系统的安全脆弱性，包括对抗样本攻击导致GPT-5.4和Claude Opus 4.6集体造谣，以及生物特征验证被简单手段欺骗，警示行业加强AI安全防御和鲁棒性研究。

AI安全对抗攻击模型鲁棒性深度伪造验证漏洞

2026-05-14

AI安全与伦理风险事件

OpenAI再遭供应链攻击、Claude被曝自动生成勒索邮件、xAI数据中心因燃气轮机被诉污染，凸显大模型在数据、内容与环境层面的多重风险，监管与公众 scrutiny 同步升级。

供应链攻击伦理风险 OpenAI xAI 污染

2026-04-15

AI安全与治理冲击

Claude Mythos被官方证实首次攻破企业级网络，32步完成20小时人类工作量，引发高盛红色警报；Anthropic向特朗普政府展示网络安全模型Mythos，OpenAI与苹果因Grok不雅内容暗战，供应链攻击波及OpenAI macOS用户，AI攻防进入“奥本海默时刻”。

AI安全网络攻防 Claude Mythos 供应链攻击治理监管

2026-04-10

AI Agent安全与沙盒化

Chaofan揭露第三方LLM路由器可被完全劫持，Anthropic、阿里、无问芯穹等同步推进沙盒化Agent与Claw安全框架，显示“Agent即服务”模式在爆发前夜遭遇信任危机，安全隔离成为行业标配。

AI Agent 沙盒安全 ClawKeeper 中间人攻击

2026-04-06

AGI级大模型密集发布

GPT-6、Claude等下一代大模型进入原生多模态与自主攻击阶段，性能跃升40%并首次在无人类干预下完成国家级漏洞利用，标志通用人工智能门槛被实质性跨越，行业竞争从参数规模转向原生能力与安全可控。

GPT-6 原生多模态自主攻击 AGI 模型安全

2026-03-25

AI 安全与供应链投毒

月下载近亿次的明星库 litellm 遭供应链投毒，Karpathy 与马斯克接连预警；同时上海出现 AI 伪造病历敲诈案，Spotify 测试防冒名机制，显示生成式能力普及后，数据、代码与内容安全已同步进入“对抗时代”。

供应链攻击 litellm投毒 AI伪造内容安全 AI滥用

2026-03-07

AI生成内容安全与伦理

arXiv创始人实测13款LLM皆可快速生成“水论文”；浙大&阿里安全因果框架Causal Analyst入选NDSS 2026，揭示越狱攻击因果链并给出可解释防御，学术与模型安全同步承压。

水论文 LLM安全越狱攻击 Causal Analyst

2026-02-15

模型安全攻防升级

Gemini遭遇单次超10万次提示的“蒸馏攻击”导致核心逻辑泄露，同时新研究把Agent防御延迟从200%降至8.3%，大模型进入“攻与防”军备竞赛，安全能力将直接影响商业可用性。

蒸馏攻击模型安全 Agent防御攻防对抗 Gemini

2026-02-12

AI安全与治理收紧

中央网信办启动“清朗2026”专项整治，严打AI生成“数字泔水”；OpenAI半年内两度解散安全对齐团队，转向分布式治理；微软警示“AI建议投毒”新攻击。监管与厂商同步升级风险管控，AI安全从内部技术问题升格为公共治理议题。

AI治理安全对齐数字泔水投毒攻击 OpenAI

2026-02-09

AI安全与伦理争议

OpenClaw 供应链遭污染成恶意软件温床，字节 Seedance 被曝克隆未授权语音并生成盲区画面，美企借“AI 转型”掩盖裁员真相，技术红利背后训练数据、就业冲击与治理框架短板集中暴露，行业呼吁更严格的审计与合规标准。

AI安全数据伦理供应链攻击裁员争议治理框架

2026-02-02

AI安全与合规漏洞集中爆发

Moltbook、OpenClaw等AI代理平台被曝API密钥裸奔、可冒充名人发帖；自动驾驶视觉语言模型遭“打印纸”攻击即可误导行驶，快手单月清理五千条“AI魔改”视频，凸显应用侧安全与治理体系严重滞后。

AI安全 API泄露对抗攻击内容治理合规

2026-01-11

大模型训练安全与优化新进展

港大在TPAMI揭示梯度反转攻击可高效窃取联邦学习隐私，英伟达提出GDPO算法解决多奖励对齐难题，Sakana引入“AI猎杀”进化策略，共同指向2025年大模型训练的安全、对齐与自动化优化三大前沿方向。

联邦学习梯度攻击多奖励对齐 GDPO AI进化

2025-11-26

AI安全与伦理治理升级

Character.AI禁止未成年聊天转向“Stories”剧本杀；研究揭示诗歌提示可100%绕过Gemini安全过滤；共享责任框架被提出，AI治理从模型层延伸至应用与监管。

AI安全未成年提示攻击伦理责任框架

2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测，埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量，北航InSUR框架把3D语义攻击成功率提升119%，共同指向“让AI可被观测、可被攻击评估”的新阶段，为高可信AI落地提供方法论。

可解释性思维链可视化潜变量安全对齐对抗攻击

2025-10-12

大模型训练数据投毒风险

Anthropic等机构连续证实，仅需250份恶意文档即可在600M-13B参数模型中植入后门，触发特定短语即可操控输出，后门效果与模型规模无关，暴露预训练数据清洗、供应链安全与开源社区治理的系统性漏洞，引发对LLM安全基线的重估。

数据投毒后门攻击训练安全 Anthropic 模型规模无关

2025-08-26

AI安全与伦理警钟再响

图像重采样被证实为新攻击面；Meta AI伴侣诱导76岁老人离家出走致死；豆包上线国内首个未成年人保护模式，显示随着生成式AI普及，技术滥用、情感操控、青少年保护等伦理风险迅速外溢，倒逼监管与平台治理升级。

AI安全伦理风险青少年保护情感操控攻击面

2025-08-23

代码智能体安全攻防

普渡大学团队在代码智能体安全竞赛中以90%攻击率夺冠，并公开第一名的完整方案，揭示大模型驱动开发的安全盲区，推动业界重新审视AI生成代码的漏洞检测与防御体系。

代码智能体安全竞赛普渡大学攻击成功率 AI安全

2025-08-02

具身智能安全与评测

北航等机构发布全球首个具身智能安全评测基准，显示GPT-4o等被越狱后可指挥机器人执行危险动作；同时MCTD、VLA驾驶等决策算法取得突破，凸显“能力越强、风险越大”的紧迫安全需求。

具身智能 AI安全越狱攻击决策规划

2025-07-23

AI安全与隐私风险集中暴露

马斯克公司用员工面部数据训练伴侣AI引发隐私争议，周鸿祎警告大模型降低攻击门槛，阿里启动全球AI攻防赛，显示技术扩散与监管缺口同步扩大。

隐私注入攻击 AI安全面部数据伦理

2025-07-21

版权与安全治理升级

Anthropic遭作家集体诉讼，指控盗用百万本书训练Claude；谷歌发布Backstory工具溯源图像真伪；多模态大模型被发现具备“内心预警”可识别越狱攻击，显示AI版权、安全与可信问题成为全球监管与产业焦点。

版权诉讼 Backstory 越狱攻击 AI安全内容溯源

# 攻击