AI快开门

发现最好的AI工具

2024-08-09

RLHF技术路线争议

Karpathy与LeCun公开质疑RLHF并非真正强化学习,引发OpenAI、谷歌、Meta等巨头下场辩论。该争论关系到大模型后训练范式是否被高估,可能重塑行业对对齐技术的投入重心与研发路径。
2024-04-05

学术致敬与遗产

最懂AI的诺奖经济学得主逝世,其机制设计理论被公认为大模型对齐与激励研究的重要思想源泉,引发学界对AI经济理论基础与跨学科贡献的再审视。
2024-03-27

大模型安全与对齐新框架

复旦ALaRM、天大开源RLHF平台等研究通过层级奖励、人类反馈与案例推理,把大模型对齐精度推向新高度;同时黑客利用GPT-4加速勒索,倒逼防御侧同步升级,安全与对齐成为落地前的“最后一公里”。
2024-01-24

大模型幻觉治理与可信生成

谷歌ASPIRE让LLM自评输出置信度,显著抑制幻觉;清华年会专设“安全与对齐”论坛,凸显可控生成已成大模型落地前的核心关卡。技术路线从软提示微调到选择性预测,标志着行业从“做大”转向“做稳”。
2024-01-03

大模型安全与伦理治理

2024年初,产学研界集中聚焦大模型对齐、鲁棒性与伦理风险:从“谄媚”现象、RLHF后门攻击,到科技伦理治理论坛的“智能向善”倡议,监管层与研究机构正试图为快速迭代的巨型模型建立可信框架,直接影响后续合规落地与公众接受度。