2025-04-21
大模型推理与幻觉治理
OpenAI o3/o4-mini在代码推理刷新纪录的同时,幻觉率飙升至33%,引发RL过度优化质疑;清华Hyper-RAG以超图增强知识关联,显著降低幻觉。行业共识:推理性能与可信度需同步提升,RAG、搜索-推理协同及原生1bit轻量化成为新方向,将决定大模型在医疗、法律等高可靠场景的落地速度。
2024-04-14
幻觉治理与评测赛事
KDD Cup 2024聚焦大模型幻觉检测与修正,吸引全球团队参与,推动可信AI落地;赛事成果有望成为行业基准,减少金融、医疗等高风险场景中的错误输出。
2024-01-04
大模型幻觉与治理挑战
GPT-4被曝“寒假降智”凸显大模型可控性与可解释性短板;同期中美欧密集出台军事与民用AI治理框架,显示技术飞跃与监管赛跑进入关键期。如何兼顾性能与安全,将决定大模型能否持续商业化。