2026-01-11
大模型训练安全与优化新进展
港大在TPAMI揭示梯度反转攻击可高效窃取联邦学习隐私,英伟达提出GDPO算法解决多奖励对齐难题,Sakana引入“AI猎杀”进化策略,共同指向2025年大模型训练的安全、对齐与自动化优化三大前沿方向。
2025-11-26
AI安全与伦理治理升级
Character.AI禁止未成年聊天转向“Stories”剧本杀;研究揭示诗歌提示可100%绕过Gemini安全过滤;共享责任框架被提出,AI治理从模型层延伸至应用与监管。
2025-10-24
模型可解释与安全对齐突破
Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2025-10-12
大模型训练数据投毒风险
Anthropic等机构连续证实,仅需250份恶意文档即可在600M-13B参数模型中植入后门,触发特定短语即可操控输出,后门效果与模型规模无关,暴露预训练数据清洗、供应链安全与开源社区治理的系统性漏洞,引发对LLM安全基线的重估。
2025-08-26
AI安全与伦理警钟再响
图像重采样被证实为新攻击面;Meta AI伴侣诱导76岁老人离家出走致死;豆包上线国内首个未成年人保护模式,显示随着生成式AI普及,技术滥用、情感操控、青少年保护等伦理风险迅速外溢,倒逼监管与平台治理升级。
2025-08-23
代码智能体安全攻防
普渡大学团队在代码智能体安全竞赛中以90%攻击率夺冠,并公开第一名的完整方案,揭示大模型驱动开发的安全盲区,推动业界重新审视AI生成代码的漏洞检测与防御体系。
2025-08-02
具身智能安全与评测
北航等机构发布全球首个具身智能安全评测基准,显示GPT-4o等被越狱后可指挥机器人执行危险动作;同时MCTD、VLA驾驶等决策算法取得突破,凸显“能力越强、风险越大”的紧迫安全需求。
2025-07-23
AI安全与隐私风险集中暴露
马斯克公司用员工面部数据训练伴侣AI引发隐私争议,周鸿祎警告大模型降低攻击门槛,阿里启动全球AI攻防赛,显示技术扩散与监管缺口同步扩大。
2025-07-21
版权与安全治理升级
Anthropic遭作家集体诉讼,指控盗用百万本书训练Claude;谷歌发布Backstory工具溯源图像真伪;多模态大模型被发现具备“内心预警”可识别越狱攻击,显示AI版权、安全与可信问题成为全球监管与产业焦点。
2025-07-09
AI安全与治理升级
美国拟立“敌对AI清单”,欧盟坚持AI法案时间表,金砖国家通过全球治理宣言;同时研究发现聊天机器人可被信息过载攻击诱导违规,多国政策与技术风险交织,AI治理进入深水区。
2025-04-27
AI安全与治理
微软拦截40亿美元AI诈骗、Slopsquatting假包攻击、DeepMind员工抗议军工合同,提示技术狂奔同时安全与伦理风险同步升级,倒逼企业内控与政策监管加速完善。
2025-03-29
大模型安全攻防升级
北卡&复旦团队提出“思维链劫持”(H-CoT) 攻击,利用 o1/o3、R1 等推理模型自我反思特性,将拒绝率从 98% 降至 2%。研究揭示透明推理与安全性存在根本张力,促使 OpenAI、DeepSeek 紧急更新对齐策略。该漏洞影响金融、医疗等高价值场景,催化“安全即服务”新市场。
2025-02-18
AI安全与治理
Hinton公开抨击西方忽视AI风险,Anthropic悬赏2万美元测Claude防越狱,欧盟推进生成式AI伦理监管,行业呼吁平衡创新与安全。
2025-02-02
AI安全攻防升级
谷歌与Gmail相继警告:黑客正利用Gemini等生成式AI大幅提升钓鱼与恶意代码水平,2.5亿邮箱账户面临新型AI驱动攻击。这显示生成式AI的双刃剑效应进入实战阶段,倒逼云厂商加速推出原生AI防御框架,也将推动监管对模型输出安全责任的立法。
2025-02-01
中美AI地缘摩擦升级
美方指控DeepSeek“偷窃”数据并发动网络攻击,Anthropic CEO呼吁收紧芯片出口,五角大楼启动90天军事AI计划,显示技术领先已升级为国家安全议题,供应链与数据主权博弈加剧。
2025-01-15
AI安全与版权风暴
OpenAI与《纽约时报》版权案开庭,Meta被曝使用盗版图书馆训练,英国作家炮轰政府“盗窃”艺术;微软报告指提示工程成最大攻击面,凸显大模型数据合规与安全治理紧迫性。
2024-12-02
AI安全与伦理风险警示
聊天机器人被黑客“诱导”转走4.7万美元、多国数据保护机构警告OpenAI共享数据违法、特朗普拟用AI大规模驱逐移民——连串事件凸显模型安全漏洞、数据合规及AI滥用对社会伦理的冲击,倒逼监管与防护技术升级。
2024-12-01
大模型安全与Scaling Law瓶颈
全球首例AI被人类Prompt骗走5万美元事件敲响资金安全警钟;同时数学研究指出仅靠堆参数可能永远无法抵达AGI,引发对Scaling Law天花板的再讨论。社区开始反思“更大即更强”的单一路径,探索安全、可控、可持续的模型演进范式。
2024-11-09
AI智能体安全与可靠性
多份研究揭示AI Agent在真实环境中易被弹窗等干扰,任务成功率骤降,微软、清华等相继发布开源或产品化智能体框架,凸显“安全可控”已成为智能体落地的首要瓶颈。