2026-04-15

AI安全与治理冲击

Claude Mythos被官方证实首次攻破企业级网络,32步完成20小时人类工作量,引发高盛红色警报;Anthropic向特朗普政府展示网络安全模型Mythos,OpenAI与苹果因Grok不雅内容暗战,供应链攻击波及OpenAI macOS用户,AI攻防进入“奥本海默时刻”。
2026-04-12

AI安全攻防升级

Claude Mythos在Cybench满分攻破主流系统,Cloudflare市值4天蒸发数十亿,暴露传统安全软件滞后,预示AI驱动攻防重构网络安全格局,企业被迫升级AI原生防护。
2026-03-30

AI安全与漏洞自动化

Claude 90分钟挖穿Ghost CMS与Linux内核20年漏洞,蚂蚁发现OpenClaw 33个高危漏洞并协助修复,AI攻防双向加速,自动化漏洞挖掘重塑安全研究范式,也带来新隐忧。
2026-02-15

模型安全攻防升级

Gemini遭遇单次超10万次提示的“蒸馏攻击”导致核心逻辑泄露,同时新研究把Agent防御延迟从200%降至8.3%,大模型进入“攻与防”军备竞赛,安全能力将直接影响商业可用性。
2024-10-09

AI安全与创作者保护

Adobe推出免费“内容真实性”应用、新加坡将AI课程纳入中小学必修课、国内启动首个大模型攻防赛,显示行业从能力竞赛转向可信、合规与人才前置培养。
2024-06-12

模型安全与越狱攻防升级

北航&南洋理工万轮测试证实GPT-4o越狱率显著高于GPT-4V,国内团队同步推出多模态安全基准,显示GPT-4o仅65.5%准确率,模型能力越强伴随安全代价,行业呼吁同步强化对齐与评测体系。
2024-03-27

大模型安全与对齐新框架

复旦ALaRM、天大开源RLHF平台等研究通过层级奖励、人类反馈与案例推理,把大模型对齐精度推向新高度;同时黑客利用GPT-4加速勒索,倒逼防御侧同步升级,安全与对齐成为落地前的“最后一公里”。