AI快开门

发现最好的AI工具

2024-03-27

大模型安全与对齐新框架

复旦ALaRM、天大开源RLHF平台等研究通过层级奖励、人类反馈与案例推理,把大模型对齐精度推向新高度;同时黑客利用GPT-4加速勒索,倒逼防御侧同步升级,安全与对齐成为落地前的“最后一公里”。