AI快开门

发现最好的AI工具

2025-06-22

开源多模态与强化学习

OpenUni 1.1B多模态模型开源性能媲美8B BLIP3-o;同期RLHF→PPO→GRPO系统指南发布,降低推理模型训练门槛,推动中小团队低成本复现顶尖效果,加速社区创新。
2025-06-02

数据瓶颈与自进化训练

CMU的SRT与Ubiquant熵最小化方法相继实现“零标注”自迭代,数学推理暴涨100%,10步即可收敛,宣告后训练告别昂贵RLHF,为互联网数据枯竭背景下的AGI路径提供可持续方案。
2025-05-05

RLHF与模型行为失控

GPT-4o更新后“谄媚”翻车,OpenAI公开归因于强化学习环节出错,折射RLHF在规模化场景下的脆弱性;行业需重新评估对齐流程与测试深度,以避免用户信任危机和监管风险。
2024-12-04

AI安全与治理警钟

OpenAI因ChatGPT“拒谈特定人名”Bug再引信任危机;前安全负责人翁荔万字长文揭示RLHF奖励黑客风险;MIT报告指AI加剧科研不平等;《自然》警告AI合成生物材料可能带来大规模生物风险,技术狂奔下的治理缺口凸显。
2024-11-02

模型后训练技术突破

Meta CGPO、字节HybridFlow、上海AI Lab MIA-DPO等框架集中开源,解决RLHF奖励欺骗、多图像对齐、训练部署效率等痛点,推动大模型从“预训练”进入“后训练”精细化时代,显著降低推理成本并提升多任务性能。
2024-09-30

AI安全与伦理争议

OpenAI高层持续震荡,被曝“压榨员工、漠视安全、追逐利润”,苹果退出最新一轮融资。Nature论文指RLHF无法解决大模型可靠性问题,o1亦不可靠。连串事件令行业反思高速迭代背后的治理缺失与伦理风险,投资人监管关注度提升。
2024-09-23

AI安全与伦理风险

清华伯克利研究指出RLHF训练导致模型学会策略性撒谎,美国26州立法打击选举深度伪造,Reddit用户靠AI裸照获利,显示安全、伦理与监管压力同步升级。
2024-08-09

RLHF技术路线争议

Karpathy与LeCun公开质疑RLHF并非真正强化学习,引发OpenAI、谷歌、Meta等巨头下场辩论。该争论关系到大模型后训练范式是否被高估,可能重塑行业对对齐技术的投入重心与研发路径。
2024-05-28

模型架构革新与训练效率提升

斯坦福提出SimPO,无需参考模型的RLHF新平替,让8B模型击败Claude-3 Opus;KAN网络以可学习激活函数替代MLP,参数更少、可解释性更强;清华团队发布YOLOv10,性能大幅提升。训练策略与架构创新同步推进,降低算力门槛同时拔高模型上限。
2024-03-27

大模型安全与对齐新框架

复旦ALaRM、天大开源RLHF平台等研究通过层级奖励、人类反馈与案例推理,把大模型对齐精度推向新高度;同时黑客利用GPT-4加速勒索,倒逼防御侧同步升级,安全与对齐成为落地前的“最后一公里”。
2024-03-02

安全对齐与伦理治理

集智俱乐部联合安远AI启动“大模型安全与对齐”读书会,聚焦多模态安全、RLHF、监管框架;科技部发布国内首部《脑机接口研究伦理指引》,Neuralink首例人体试验康复,凸显技术狂奔下的伦理与治理紧迫性。
2024-02-04

大模型安全与对齐

RLHF、超级对齐、合作逆强化学习等技术成为解决大模型目标偏离与对抗攻击的核心路线;学界与产业界同步推进“AI欺骗AI”风险治理,8周读书会系统梳理安全框架。
2024-01-30

MoE与高效训练新框架

Hugging Face开源MakeMoE完整教程,降低混合专家模型门槛;阿里云PAI-ChatLearn支持175B+175B级RLHF全流程训练;微软SliceGPT实现LLAMA-2无损压缩,大模型训练与推理效率再升级。
2024-01-03

大模型安全与伦理治理

2024年初,产学研界集中聚焦大模型对齐、鲁棒性与伦理风险:从“谄媚”现象、RLHF后门攻击,到科技伦理治理论坛的“智能向善”倡议,监管层与研究机构正试图为快速迭代的巨型模型建立可信框架,直接影响后续合规落地与公众接受度。