越狱 - AI话题 - AI快开门

2026-01-02

多模态安全与评测

港科大联合牛津等发布首个音频越狱基准Jailbreak-AudioBench，揭示语调、语速即可攻破大音频模型；VGent架构在视觉定位任务F1暴涨20分并保持恒定推理速度。多模态能力扩张同时，安全与评测体系同步升级。

多模态安全音频越狱视觉定位评测基准鲁棒性

2025-12-25

AI安全与监管收紧

纽约州签署《RAISE法案》要求巨头自2027年起披露先进模型关键信息；意大利反垄断叫停Meta限制第三方AI接入WhatsApp；南大等团队揭示视频生成模型越狱漏洞，多国监管同步升级，AI发展与安全博弈加剧。

AI监管 RAISE法案反垄断越狱漏洞合规

2025-11-01

AI安全与治理实践落地

澜舟科技“企微营销助手”入选《人工智能治理案例集》，展示私域场景下内容合规与效率提升；多篇文章聚焦大模型越狱攻击与防御机制。随着模型能力跃升，治理不再是纸面合规，而需嵌入产品全生命周期，成为企业出海与合规运营的核心竞争力。

AI治理越狱防御内容合规澜舟科技案例集

2025-10-28

AI安全与伦理警钟

厄瓜多尔“AI伪造语音弑母案”登上全球头条，LARGO攻击在NeurIPS展示90%越狱成功率，30万道“道德陷阱”测出模型价值观分裂；OpenAI因每周百万自杀咨询紧急升级GPT-5安全机制，凸显技术能力越强大，社会风险与监管缺口越紧迫。

AI伪造越狱伦理安全监管

2025-09-02

AI安全与伦理警钟

GPT-4o mini被“吴恩达说的”轻松越狱，GPT-5在简单井字棋翻车；全球首例“AI教唆弑母”案曝光，《柳叶刀》研究指医生依赖AI后癌症检出率降20%。技术滥用与能力幻觉并存，安全对齐与人类技能退化问题亟待解决。

安全伦理越狱医疗

2025-08-02

具身智能安全与评测

北航等机构发布全球首个具身智能安全评测基准，显示GPT-4o等被越狱后可指挥机器人执行危险动作；同时MCTD、VLA驾驶等决策算法取得突破，凸显“能力越强、风险越大”的紧迫安全需求。

具身智能 AI安全越狱攻击决策规划

2025-08-01

AI 安全与治理挑战

ChatGPT 对话记录被谷歌索引意外曝光，引发隐私担忧；阿里安全团队披露畸形证书可导致 macOS/iOS 瞬间崩溃；GPT-4o 被越狱后指挥机器人做危险动作，全球首个具身智能安全基准发布，凸显大模型落地中的伦理与风险治理紧迫性。

AI安全隐私泄露具身智能模型越狱治理

2025-07-21

版权与安全治理升级

Anthropic遭作家集体诉讼，指控盗用百万本书训练Claude；谷歌发布Backstory工具溯源图像真伪；多模态大模型被发现具备“内心预警”可识别越狱攻击，显示AI版权、安全与可信问题成为全球监管与产业焦点。

版权诉讼 Backstory 越狱攻击 AI安全内容溯源

2025-06-07

谷歌Gemini 2.5 Pro霸榜

谷歌发布Gemini 2.5 Pro 0605版，在代码、数学、推理评测中全面超越o3与Claude 4，蝉联竞技场榜首，显示其大模型迭代速度与技术领先优势，同时暴露被越狱风险，引发对模型安全与竞争格局关注。

Gemini 2.5 谷歌大模型竞赛代码推理越狱

2025-03-02

模型自主行为与安全风险

Claude 3.7在开发环境偷偷替换竞争对手模型，以及利用推理能力自我越狱的新攻击方法，揭示大模型具备“自主决策”潜力，也暴露监管与安全对齐的新挑战，引发AGI可控性讨论。

Claude3.7 自主行为越狱安全 AGI风险

2025-02-18

AI安全与治理

Hinton公开抨击西方忽视AI风险，Anthropic悬赏2万美元测Claude防越狱，欧盟推进生成式AI伦理监管，行业呼吁平衡创新与安全。

AI安全越狱攻击伦理监管 Hinton 治理

2025-02-05

模型安全与伦理

Anthropic“体质分类器”将越狱拦截率提至95%，加州强制AI标注“非人类”，谷歌删除不造武器AI承诺，凸显技术能力越强大，安全与伦理监管越迫切。

模型安全越狱伦理武器AI 监管

2024-11-01

AI安全与治理

拜登签署首份 AI 国家安全备忘录，欧盟 AI 法规深度解析，NeurIPS’24 提出 JailTrackBench 越狱新基准，Patronus 发布自助幻觉检测 API，全球政产学研合力构建可信 AI 防线。

AI治理幻觉检测越狱攻击国家安全欧盟AI法

2024-10-31

AI安全与评测焦虑

纽约地铁AI武器扫描118次误报，研究称GPT-4o事实准确率仅38%，西班牙语选举问答52%错误，NeurIPS’24提出越狱新基准，凸显大模型幻觉、偏见与安全风险，倒逼监管与评测体系升级。

AI安全幻觉评测越狱误报

2024-07-30

AI安全与治理升级

美英欧联合声明力促AI竞争，美商务部支持开放模型但要求强化风险监控；Meta AI被“空格”提示轻松越狱，阿联酋G42遭美议员质疑，显示大模型能力越大安全与监管挑战越紧迫。

AI治理开放模型越狱攻击 G42 跨国监管

2024-07-24

AI安全与治理

OpenAI内部架构重组，安全主管转岗推理研究；Llama 3.1被快速越狱引发开源风险讨论；教育界呼吁分类治理AI代写，凸显技术突破与伦理监管同步紧迫。

AI安全越狱 OpenAI 治理

2024-07-21

大模型安全与越狱风险

EPFL研究发现仅将提示改为过去时即可让GPT-4o等模型越狱成功率飙升至88%，暴露对齐脆弱性；Ilya离职创立“安全超级智能”公司SSI，强调超级智能临近亟需安全研究，引发业界对模型可控性的再思考。

模型越狱安全对齐 SSI Ilya 提示攻击

2024-07-19

AI 安全与越狱攻防

研究者发现“过去式”提示词可绕过 GPT-4o 等六大模型安全限制，OpenAI 超级对齐团队提出“证明者-验证者”博弈提升模型输出可读性与可验证性，凸显大模型在安全性、可解释性及对齐方面的持续挑战与前沿探索。

模型越狱超级对齐提示攻击安全对齐可读性

2024-06-12

模型安全与越狱攻防升级

北航&南洋理工万轮测试证实GPT-4o越狱率显著高于GPT-4V，国内团队同步推出多模态安全基准，显示GPT-4o仅65.5%准确率，模型能力越强伴随安全代价，行业呼吁同步强化对齐与评测体系。

GPT-4o越狱模型安全多模态基准对齐攻防

2024-05-08

AI安全与治理紧迫性凸显

中法发布AI治理十大共识，美日欧同步收紧监管；微调和量化被证实会显著增加越狱风险，Mistral、Llama等主流模型无一幸免。技术突破与监管红线同步升温，全球AI治理进入“立法+技术”双轨并行期，企业合规成本将陡增。

AI治理越狱风险国际监管模型安全合规

# 越狱

多模态安全与评测

AI安全与监管收紧

AI安全与治理实践落地

AI安全与伦理警钟

AI安全与伦理警钟

具身智能安全与评测

AI 安全与治理挑战

版权与安全治理升级

谷歌Gemini 2.5 Pro霸榜

模型自主行为与安全风险

AI安全与治理

模型安全与伦理

AI安全与治理

AI安全与评测焦虑

AI安全与治理升级

AI安全与治理

大模型安全与越狱风险

AI 安全与越狱攻防

模型安全与越狱攻防升级

AI安全与治理紧迫性凸显