AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
MIA-DPO
相关话题
2024-11-02
模型后训练技术突破
Meta CGPO、字节HybridFlow、上海AI Lab MIA-DPO等框架集中开源,解决RLHF奖励欺骗、多图像对齐、训练部署效率等痛点,推动大模型从“预训练”进入“后训练”精细化时代,显著降低推理成本并提升多任务性能。
RLHF
后训练
CGPO
HybridFlow
MIA-DPO