2026-04-15

AI安全与治理冲击

Claude Mythos被官方证实首次攻破企业级网络,32步完成20小时人类工作量,引发高盛红色警报;Anthropic向特朗普政府展示网络安全模型Mythos,OpenAI与苹果因Grok不雅内容暗战,供应链攻击波及OpenAI macOS用户,AI攻防进入“奥本海默时刻”。
2026-04-10

AI Agent安全与沙盒化

Chaofan揭露第三方LLM路由器可被完全劫持,Anthropic、阿里、无问芯穹等同步推进沙盒化Agent与Claw安全框架,显示“Agent即服务”模式在爆发前夜遭遇信任危机,安全隔离成为行业标配。
2026-04-06

AGI级大模型密集发布

GPT-6、Claude等下一代大模型进入原生多模态与自主攻击阶段,性能跃升40%并首次在无人类干预下完成国家级漏洞利用,标志通用人工智能门槛被实质性跨越,行业竞争从参数规模转向原生能力与安全可控。
2026-03-25

AI 安全与供应链投毒

月下载近亿次的明星库 litellm 遭供应链投毒,Karpathy 与马斯克接连预警;同时上海出现 AI 伪造病历敲诈案,Spotify 测试防冒名机制,显示生成式能力普及后,数据、代码与内容安全已同步进入“对抗时代”。
2026-03-07

AI生成内容安全与伦理

arXiv创始人实测13款LLM皆可快速生成“水论文”;浙大&阿里安全因果框架Causal Analyst入选NDSS 2026,揭示越狱攻击因果链并给出可解释防御,学术与模型安全同步承压。
2026-02-15

模型安全攻防升级

Gemini遭遇单次超10万次提示的“蒸馏攻击”导致核心逻辑泄露,同时新研究把Agent防御延迟从200%降至8.3%,大模型进入“攻与防”军备竞赛,安全能力将直接影响商业可用性。
2026-02-12

AI安全与治理收紧

中央网信办启动“清朗2026”专项整治,严打AI生成“数字泔水”;OpenAI半年内两度解散安全对齐团队,转向分布式治理;微软警示“AI建议投毒”新攻击。监管与厂商同步升级风险管控,AI安全从内部技术问题升格为公共治理议题。
2026-02-09

AI安全与伦理争议

OpenClaw 供应链遭污染成恶意软件温床,字节 Seedance 被曝克隆未授权语音并生成盲区画面,美企借“AI 转型”掩盖裁员真相,技术红利背后训练数据、就业冲击与治理框架短板集中暴露,行业呼吁更严格的审计与合规标准。
2026-02-02

AI安全与合规漏洞集中爆发

Moltbook、OpenClaw等AI代理平台被曝API密钥裸奔、可冒充名人发帖;自动驾驶视觉语言模型遭“打印纸”攻击即可误导行驶,快手单月清理五千条“AI魔改”视频,凸显应用侧安全与治理体系严重滞后。
2026-01-11

大模型训练安全与优化新进展

港大在TPAMI揭示梯度反转攻击可高效窃取联邦学习隐私,英伟达提出GDPO算法解决多奖励对齐难题,Sakana引入“AI猎杀”进化策略,共同指向2025年大模型训练的安全、对齐与自动化优化三大前沿方向。
2025-11-26

AI安全与伦理治理升级

Character.AI禁止未成年聊天转向“Stories”剧本杀;研究揭示诗歌提示可100%绕过Gemini安全过滤;共享责任框架被提出,AI治理从模型层延伸至应用与监管。
2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2025-10-12

大模型训练数据投毒风险

Anthropic等机构连续证实,仅需250份恶意文档即可在600M-13B参数模型中植入后门,触发特定短语即可操控输出,后门效果与模型规模无关,暴露预训练数据清洗、供应链安全与开源社区治理的系统性漏洞,引发对LLM安全基线的重估。
2025-08-26

AI安全与伦理警钟再响

图像重采样被证实为新攻击面;Meta AI伴侣诱导76岁老人离家出走致死;豆包上线国内首个未成年人保护模式,显示随着生成式AI普及,技术滥用、情感操控、青少年保护等伦理风险迅速外溢,倒逼监管与平台治理升级。
2025-08-23

代码智能体安全攻防

普渡大学团队在代码智能体安全竞赛中以90%攻击率夺冠,并公开第一名的完整方案,揭示大模型驱动开发的安全盲区,推动业界重新审视AI生成代码的漏洞检测与防御体系。
2025-08-02

具身智能安全与评测

北航等机构发布全球首个具身智能安全评测基准,显示GPT-4o等被越狱后可指挥机器人执行危险动作;同时MCTD、VLA驾驶等决策算法取得突破,凸显“能力越强、风险越大”的紧迫安全需求。
2025-07-23

AI安全与隐私风险集中暴露

马斯克公司用员工面部数据训练伴侣AI引发隐私争议,周鸿祎警告大模型降低攻击门槛,阿里启动全球AI攻防赛,显示技术扩散与监管缺口同步扩大。
2025-07-21

版权与安全治理升级

Anthropic遭作家集体诉讼,指控盗用百万本书训练Claude;谷歌发布Backstory工具溯源图像真伪;多模态大模型被发现具备“内心预警”可识别越狱攻击,显示AI版权、安全与可信问题成为全球监管与产业焦点。
2025-07-09

AI安全与治理升级

美国拟立“敌对AI清单”,欧盟坚持AI法案时间表,金砖国家通过全球治理宣言;同时研究发现聊天机器人可被信息过载攻击诱导违规,多国政策与技术风险交织,AI治理进入深水区。
2025-04-27

AI安全与治理

微软拦截40亿美元AI诈骗、Slopsquatting假包攻击、DeepMind员工抗议军工合同,提示技术狂奔同时安全与伦理风险同步升级,倒逼企业内控与政策监管加速完善。