大模型对齐 - AI话题

2024-08-09

Karpathy与LeCun公开质疑RLHF并非真正强化学习，引发OpenAI、谷歌、Meta等巨头下场辩论。该争论关系到大模型后训练范式是否被高估，可能重塑行业对对齐技术的投入重心与研发路径。

RLHF 强化学习大模型对齐 Karpathy

2024-04-05

最懂AI的诺奖经济学得主逝世，其机制设计理论被公认为大模型对齐与激励研究的重要思想源泉，引发学界对AI经济理论基础与跨学科贡献的再审视。

诺奖经济学机制设计大模型对齐

2024-03-27

复旦ALaRM、天大开源RLHF平台等研究通过层级奖励、人类反馈与案例推理，把大模型对齐精度推向新高度；同时黑客利用GPT-4加速勒索，倒逼防御侧同步升级，安全与对齐成为落地前的“最后一公里”。

2024-01-24

谷歌ASPIRE让LLM自评输出置信度，显著抑制幻觉；清华年会专设“安全与对齐”论坛，凸显可控生成已成大模型落地前的核心关卡。技术路线从软提示微调到选择性预测，标志着行业从“做大”转向“做稳”。

2024-01-03

2024年初，产学研界集中聚焦大模型对齐、鲁棒性与伦理风险：从“谄媚”现象、RLHF后门攻击，到科技伦理治理论坛的“智能向善”倡议，监管层与研究机构正试图为快速迭代的巨型模型建立可信框架，直接影响后续合规落地与公众接受度。

AI快开门