2024-08-09
RLHF技术路线争议
Karpathy与LeCun公开质疑RLHF并非真正强化学习,引发OpenAI、谷歌、Meta等巨头下场辩论。该争论关系到大模型后训练范式是否被高估,可能重塑行业对对齐技术的投入重心与研发路径。
2024-04-05
学术致敬与遗产
最懂AI的诺奖经济学得主逝世,其机制设计理论被公认为大模型对齐与激励研究的重要思想源泉,引发学界对AI经济理论基础与跨学科贡献的再审视。
2024-03-27
大模型安全与对齐新框架
复旦ALaRM、天大开源RLHF平台等研究通过层级奖励、人类反馈与案例推理,把大模型对齐精度推向新高度;同时黑客利用GPT-4加速勒索,倒逼防御侧同步升级,安全与对齐成为落地前的“最后一公里”。
2024-01-24
大模型幻觉治理与可信生成
谷歌ASPIRE让LLM自评输出置信度,显著抑制幻觉;清华年会专设“安全与对齐”论坛,凸显可控生成已成大模型落地前的核心关卡。技术路线从软提示微调到选择性预测,标志着行业从“做大”转向“做稳”。