AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
表征工程
相关话题
2024-06-07
AI可解释性与安全对齐进展
OpenAI联合Ilya发布GPT-4稀疏自编码器,提取1600万可解释特征;复旦郑骁庆团队用表征工程实现攻击防御与人类偏好对齐,显示大模型“黑盒”正被逐步打开,为AI安全、合规及监管提供关键技术支撑。
可解释性
稀疏自编码器
表征工程
AI安全
对齐