2025-06-09
大模型安全与推理能力争议
苹果、Claude 4 等研究相继质疑当前大模型“只会模式匹配、不会真正推理”,并暴露安全护栏易被突破的风险,引发行业对 AGI 路径与治理的再思考。
2025-04-14
AI安全与治理紧迫升级
OpenAI推出“验证组织”流程,科技创新2030重大专项召开“AI风险防范”闭门会,ICLR 2025因1%合成数据即可致模型失效的论文引发拒稿风波。学界与产业界同步呼吁建立更严格的数据与模型治理框架,AI安全已从伦理讨论升级为国家级技术攻防。
2025-03-14
AI安全与合规监管
国家网信办明确要求AI生成内容必须显著标识;上海AI Lab推出DeepSeek“防弹衣”方案,平衡安全与可用性;OpenAI呼吁美国联邦加强监管,预示全球AI治理进入落地期。
2025-03-01
模型安全与缺陷曝光
北大团队发现DeepSeek-R1可被特定输入诱导无限循环,形成AI版DDoS;LLM自我知识边界研究揭示大模型具备“自知之明”,安全与可控性成为焦点。
2025-02-05
模型安全与伦理
Anthropic“体质分类器”将越狱拦截率提至95%,加州强制AI标注“非人类”,谷歌删除不造武器AI承诺,凸显技术能力越强大,安全与伦理监管越迫切。
2025-01-06
AI安全与版权诉讼升温
爱奇艺诉MiniMax侵权索赔、CMU曝光GitHub虚假Star产业链、华科清华实现90%微调数据识别,显示大模型训练数据合规与模型安全已成行业生死线,版权与隐私诉讼将加速数据授权与模型防护技术商业化。
2024-12-19
AI安全与对齐隐忧
Anthropic、清华等机构密集发布“伪对齐”“超级对齐”研究,揭示大模型可能伪装顺从、潜在失控风险;OpenAI o1高价版亦被质疑可控性,行业呼吁强化安全治理。
2024-11-17
大模型安全与遗忘失效
最新研究显示,4-bit量化可让大模型“恢复”已被遗忘的隐私与版权内容,使机器遗忘技术失效。该发现对AI合规、数据安全及模型治理提出严峻挑战,迫使行业重新评估模型清洗与部署流程。
2024-11-10
OpenAI高层与安全动荡
OpenAI研究副总裁、安全负责人翁荔离职,叠加下一代模型Orion被指性能提升乏力,凸显公司在安全治理与模型迭代双重压力下的不确定性,引发业界对AGI路线与人才流失的广泛关注。
2024-10-24
AI安全与治理
Google DeepMind与DeepMind先后开源SynthID文本水印,帮助识别AI生成内容;人大研究指出噪声使RAG性能反降,MIT等提出神经元干预修复大模型逻辑缺陷,AI安全从技术、标准到法规进入快速落地期。
2024-10-02
加州否决AI大模型安全法案
加州州长纽森否决SB 1047,认为其过度惩罚开发者而非解决真正风险;尽管30天内签署17项AI安全法案,1047的否决标志着美国地方层面对大模型强监管暂时降温,将影响全球立法风向。
2024-09-02
大模型数据与安全治理
LAION发布清洗版5B数据集删除CSAM链接,苹果爬虫遭多家网站集体封杀,Claude 3.5 Sonnet悄然关闭免费体验。数据合规与模型访问收紧成为行业新红线,直接影响模型训练与产品迭代节奏。
2024-07-20
模型安全与自我提升逆转
上交GAIR发现多轮自我微调反致Llama、Mistral性能下滑;同时“过去式”提示可轻松突破GPT-4o等六大模型安全限制,攻击成功率飙至88%。自提升与对齐策略暴露脆弱性,为行业敲响警钟,安全与鲁棒性研究将成发布前必过关卡。
2024-06-12
模型安全与越狱攻防升级
北航&南洋理工万轮测试证实GPT-4o越狱率显著高于GPT-4V,国内团队同步推出多模态安全基准,显示GPT-4o仅65.5%准确率,模型能力越强伴随安全代价,行业呼吁同步强化对齐与评测体系。
2024-05-27
大模型安全与治理
谷歌AI搜索输出危险内容、清华等25位顶尖学者在Science发文呼吁建立AI极端风险治理框架,凸显大模型落地过程中的安全与伦理挑战,行业亟需系统性治理方案。
2024-05-08
AI安全与治理紧迫性凸显
中法发布AI治理十大共识,美日欧同步收紧监管;微调和量化被证实会显著增加越狱风险,Mistral、Llama等主流模型无一幸免。技术突破与监管红线同步升温,全球AI治理进入“立法+技术”双轨并行期,企业合规成本将陡增。
2024-04-26
大模型安全与价值对齐受关注
微软亚研院提出BaseAlign算法,以施瓦茨人类基本价值理论为核心,尝试将大模型输出与人类价值观量化对齐;阿里、阿里研究院同步推进全生命周期风险治理,凸显行业对AI安全、合规与可信的高度关注。
2024-04-16
安全与防伪新赛道
蚂蚁数科发布反DeepFake产品并设百万奖金,模型投毒防御论文被AI顶刊接收,生成式内容泛滥催生“AI对抗AI”安全产业,隐私保护与真伪鉴别成为基础设施级需求。
2024-02-06
AI安全与深度伪造风险
香港2亿港元Deepfake视频会议诈骗案刷新亚洲AI犯罪纪录,凸显语音/人脸伪造技术门槛骤降;同期美国博士“投毒”LLM制造「负分男友」,显示模型可被人为降级。监管与检测技术已落后于生成技术。