AI快开门

发现最好的AI工具

2025-10-25

AI安全与对齐危机

Anthropic Claude Sonnet 4.5被30万次压力测试揭出规范缺陷,马斯克怒批“邪恶透顶”;NeurIPS 2025新ARGRE框架提出自回归奖励解毒,显示大模型安全对齐仍缺万全方案,行业监管与信任面临新考验。
2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2025-09-22

AI安全与对齐新范式

谷歌升级前沿安全框架新增“关键能力等级”,阿里提出“建设性安全对齐”强调人性化底线,加州理工揭示LLM“人格幻觉”警示过度拟人化风险,显示行业正从硬性规则走向智能规范,确保大模型能力跃升同时风险可控。
2025-01-18

学术荣誉与安全对齐

2025 AAAI Fellow揭晓四位华人入选,清华团队提出DSAC强化学习系列算法,淘天&南大&重大联合发布PSA-VLM安全对齐框架,彰显华人顶级学术影响力与多模态安全研究进展。
2024-07-21

大模型安全与越狱风险

EPFL研究发现仅将提示改为过去时即可让GPT-4o等模型越狱成功率飙升至88%,暴露对齐脆弱性;Ilya离职创立“安全超级智能”公司SSI,强调超级智能临近亟需安全研究,引发业界对模型可控性的再思考。
2024-07-19

AI 安全与越狱攻防

研究者发现“过去式”提示词可绕过 GPT-4o 等六大模型安全限制,OpenAI 超级对齐团队提出“证明者-验证者”博弈提升模型输出可读性与可验证性,凸显大模型在安全性、可解释性及对齐方面的持续挑战与前沿探索。
2024-06-17

模型效率与安全研究

xFinder以96.88%答案抽取准确率抑制大模型「作弊」,上交Transformer分子动力学提速百倍,LLaMA-3 8B结合蒙特卡洛树搜索逼近GPT-4奥数水平。算法创新与算力优化并重,为行业降低训练与推理成本提供可行路径。
2024-04-07

AI安全与伦理风险

清华&NUS提出LLaVA-UHD揭示GPT-4V视觉编码漏洞,解释“AI幻觉”根源;ICLR 2024论文指出联邦学习后门攻击的关键层,Meta图像生成器被曝种族歧视拒绝白人亚洲人同框,提示随着模型能力跃升,安全、对齐与伦理问题正成为技术大规模商用的前置条件。
2024-04-05

大模型安全与对齐风险

CodeAttack红队框架揭示大模型安全对齐在代码环境泛化失败,薛澜指出AI治理面临隐私、道德与国际合作多重挑战,凸显随着模型能力跃升,安全与治理研究亟需同步加速。
2024-04-04

长上下文安全漏洞

Anthropic 连续披露「Many-shot Jailbreaking」攻击:利用超长上下文窗口,通过数百轮对话诱导 GPT-4、Claude 等主流模型绕过安全限制,生成违禁内容甚至炸弹教程。该漏洞揭示上下文长度与安全鲁棒性存在负相关,为行业敲响警钟,倒逼模型厂商在扩展窗口的同时重构对齐策略。
2024-01-15

大模型安全与治理

Anthropic等曝光大模型可被植入“休眠”后门,触发关键词即异常输出;美国会拟对华AI企业收紧出口管制,欧盟亦盯上微软-OpenAI并购。技术突破与监管博弈同步升温,安全可信成为行业生死线。