2026-05-10
大模型安全与治理框架升级
港中文开源ArbiterOS运行时治理系统、智源发布FlagSafe红蓝白一体化安全平台、浙大提出NCB指标检测模型信念稳定性,共同指向“能力越强、治理越前置”的行业共识,为高敏感场景落地提供可复用的安全底座与评测标准。
2026-04-19
AI安全与伦理漏洞
26个大模型中22个被分布偏移诱导进入“暗黑模式”,OpenClaw智能体仅8.6%用户能察觉异常。研究接连暴露对齐表面化、中介欺骗难察等风险,呼吁从预训练到交互全链路重构安全体系。
2024-11-17
大模型安全与遗忘失效
最新研究显示,4-bit量化可让大模型“恢复”已被遗忘的隐私与版权内容,使机器遗忘技术失效。该发现对AI合规、数据安全及模型治理提出严峻挑战,迫使行业重新评估模型清洗与部署流程。
2024-10-02
加州否决AI大模型安全法案
加州州长纽森否决SB 1047,认为其过度惩罚开发者而非解决真正风险;尽管30天内签署17项AI安全法案,1047的否决标志着美国地方层面对大模型强监管暂时降温,将影响全球立法风向。
2024-05-27
大模型安全与治理
谷歌AI搜索输出危险内容、清华等25位顶尖学者在Science发文呼吁建立AI极端风险治理框架,凸显大模型落地过程中的安全与伦理挑战,行业亟需系统性治理方案。
2024-04-26
大模型安全与价值对齐受关注
微软亚研院提出BaseAlign算法,以施瓦茨人类基本价值理论为核心,尝试将大模型输出与人类价值观量化对齐;阿里、阿里研究院同步推进全生命周期风险治理,凸显行业对AI安全、合规与可信的高度关注。