提示攻击 - AI话题

2025-11-26

Character.AI禁止未成年聊天转向“Stories”剧本杀；研究揭示诗歌提示可100%绕过Gemini安全过滤；共享责任框架被提出，AI治理从模型层延伸至应用与监管。

2025-01-15

OpenAI与《纽约时报》版权案开庭，Meta被曝使用盗版图书馆训练，英国作家炮轰政府“盗窃”艺术；微软报告指提示工程成最大攻击面，凸显大模型数据合规与安全治理紧迫性。

AI版权数据合规提示攻击 OpenAI

2024-07-21

EPFL研究发现仅将提示改为过去时即可让GPT-4o等模型越狱成功率飙升至88%，暴露对齐脆弱性；Ilya离职创立“安全超级智能”公司SSI，强调超级智能临近亟需安全研究，引发业界对模型可控性的再思考。

2024-07-19

研究者发现“过去式”提示词可绕过 GPT-4o 等六大模型安全限制，OpenAI 超级对齐团队提出“证明者-验证者”博弈提升模型输出可读性与可验证性，凸显大模型在安全性、可解释性及对齐方面的持续挑战与前沿探索。

AI快开门