AI快开门

发现最好的AI工具

2024-06-07

AI可解释性与安全对齐进展

OpenAI联合Ilya发布GPT-4稀疏自编码器,提取1600万可解释特征;复旦郑骁庆团队用表征工程实现攻击防御与人类偏好对齐,显示大模型“黑盒”正被逐步打开,为AI安全、合规及监管提供关键技术支撑。