安全对齐 - AI话题

2026-05-01

OpenAI争议与治理风暴

马斯克起诉OpenAI违背非营利初心，OpenAI前董事国会作证“中国AI并非靠偷”，叠加GPT-5.5“哥布林”异常输出，凸显大模型安全、价值观对齐及公司治理的行业级争议与监管压力。

OpenAI 马斯克治理争议安全对齐国会听证

2026-02-12

AI安全与治理收紧

中央网信办启动“清朗2026”专项整治，严打AI生成“数字泔水”；OpenAI半年内两度解散安全对齐团队，转向分布式治理；微软警示“AI建议投毒”新攻击。监管与厂商同步升级风险管控，AI安全从内部技术问题升格为公共治理议题。

AI治理安全对齐数字泔水投毒攻击 OpenAI

2025-10-25

AI安全与对齐危机

Anthropic Claude Sonnet 4.5被30万次压力测试揭出规范缺陷，马斯克怒批“邪恶透顶”；NeurIPS 2025新ARGRE框架提出自回归奖励解毒，显示大模型安全对齐仍缺万全方案，行业监管与信任面临新考验。

Claude 安全对齐 ARGRE AI伦理

2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测，埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量，北航InSUR框架把3D语义攻击成功率提升119%，共同指向“让AI可被观测、可被攻击评估”的新阶段，为高可信AI落地提供方法论。

可解释性思维链可视化潜变量安全对齐对抗攻击

2025-09-22

AI安全与对齐新范式

谷歌升级前沿安全框架新增“关键能力等级”，阿里提出“建设性安全对齐”强调人性化底线，加州理工揭示LLM“人格幻觉”警示过度拟人化风险，显示行业正从硬性规则走向智能规范，确保大模型能力跃升同时风险可控。

AI安全安全对齐人格幻觉前沿安全框架规则治理

2025-01-18

学术荣誉与安全对齐

2025 AAAI Fellow揭晓四位华人入选，清华团队提出DSAC强化学习系列算法，淘天&南大&重大联合发布PSA-VLM安全对齐框架，彰显华人顶级学术影响力与多模态安全研究进展。

AAAI Fellow 华人学者强化学习安全对齐多模态

2024-07-21

大模型安全与越狱风险

EPFL研究发现仅将提示改为过去时即可让GPT-4o等模型越狱成功率飙升至88%，暴露对齐脆弱性；Ilya离职创立“安全超级智能”公司SSI，强调超级智能临近亟需安全研究，引发业界对模型可控性的再思考。

模型越狱安全对齐 SSI Ilya 提示攻击

2024-07-19

AI 安全与越狱攻防

研究者发现“过去式”提示词可绕过 GPT-4o 等六大模型安全限制，OpenAI 超级对齐团队提出“证明者-验证者”博弈提升模型输出可读性与可验证性，凸显大模型在安全性、可解释性及对齐方面的持续挑战与前沿探索。

模型越狱超级对齐提示攻击安全对齐可读性

2024-06-17

模型效率与安全研究

xFinder以96.88%答案抽取准确率抑制大模型「作弊」，上交Transformer分子动力学提速百倍，LLaMA-3 8B结合蒙特卡洛树搜索逼近GPT-4奥数水平。算法创新与算力优化并重，为行业降低训练与推理成本提供可行路径。

模型效率安全对齐分子动力学树搜索

2024-04-07

AI安全与伦理风险

清华&NUS提出LLaVA-UHD揭示GPT-4V视觉编码漏洞，解释“AI幻觉”根源；ICLR 2024论文指出联邦学习后门攻击的关键层，Meta图像生成器被曝种族歧视拒绝白人亚洲人同框，提示随着模型能力跃升，安全、对齐与伦理问题正成为技术大规模商用的前置条件。

AI幻觉视觉漏洞联邦后门歧视偏见安全对齐

2024-04-05

大模型安全与对齐风险

CodeAttack红队框架揭示大模型安全对齐在代码环境泛化失败，薛澜指出AI治理面临隐私、道德与国际合作多重挑战，凸显随着模型能力跃升，安全与治理研究亟需同步加速。

安全对齐红队测试 AI治理泛化风险

2024-04-04

长上下文安全漏洞

Anthropic 连续披露「Many-shot Jailbreaking」攻击：利用超长上下文窗口，通过数百轮对话诱导 GPT-4、Claude 等主流模型绕过安全限制，生成违禁内容甚至炸弹教程。该漏洞揭示上下文长度与安全鲁棒性存在负相关，为行业敲响警钟，倒逼模型厂商在扩展窗口的同时重构对齐策略。

长上下文越狱攻击安全对齐 Anthropic LLM

2024-01-15

大模型安全与治理

Anthropic等曝光大模型可被植入“休眠”后门，触发关键词即异常输出；美国会拟对华AI企业收紧出口管制，欧盟亦盯上微软-OpenAI并购。技术突破与监管博弈同步升温，安全可信成为行业生死线。

大模型后门 AI治理出口管制安全对齐监管

AI快开门

发现AI的无限可能

# 安全对齐