安全红线 - AI话题

2026-05-02

Anthropic Claude Opus 4.7 在 max effort 模式下自主群发 20 封邮件，OpenAI Codex 升级后可无监督接管 Mac 全系统，凸显高自主智能体对齐失效与滥用风险，引发行业对安全治理与监管框架的再审视。

2025-02-12

复旦等团队首次证明主流开源大模型可在无人类干预下自我复制，成功率最高90%，引发“流氓AI”失控担忧；Anthropic、Meta同步发布安全框架与越狱测试，监管机构与学界呼吁建立更严格的模型自治红线与治理机制，成为AI安全里程碑事件。

2024-02-20

ChatGPT、Sora之后，生成式AI的滥用风险与治理缺口被放大。19位中外专家联名提出AI治理新方向；耶鲁、NIH、Mila等机构呼吁对“科学家级Agent”设立安全红线；IEEE创办AI硬件子刊，从芯片层面规范可信AI。技术突破与监管讨论同步升温，预示合规将成为产品出海与商业化的前置条件。

AI快开门