2025-12-11
模型幻觉与监管风暴
美国42州检察长联名致函AI巨头,要求立即修复大模型幻觉,否则依据州法起诉;OpenAI内部同步将下一代模型网络安全风险调至“高”。联邦与州层面同步收紧AI安全红线,幻觉治理、数据隐私与心理健康成为监管核心,直接影响模型上线流程、赔偿机制及全球合规成本。
2025-11-28
模型安全与幻觉治理新工具
Meta 发布白盒 CoT-Verifier 把推理错误钉在归因图,清华团队提出 OWL 双路径注意力缓解物体幻觉,IEEE 医学图像框架自学习大纲,显示精准纠错与幻觉抑制正成为大模型落地刚需。
2025-10-06
AI安全与幻觉治理
从代码漏洞到生物风险,AI安全议题升温:Anthropic Claude4.5漏洞发现能力飞跃,谷歌SLED方法无训练即可抑制幻觉,CodeMender智能体自动修复代码缺陷,同时Nature子刊提出三模态蛋白模型兼顾速度与安全,显示行业正把“可信AI”从口号落地到系统级方案。
2025-10-04
多模态精细视觉突破
华中科大白翔团队提出 LIRA 框架,仅增两个轻量模块便将多模态大模型的分割与理解能力同时推至 SOTA,显著抑制幻觉并提升复杂场景下的像素级精度。该方法为自动驾驶、医疗影像等需要高精度视觉任务的行业提供了即插即用的新范式。
2025-09-22
AI安全与对齐新范式
谷歌升级前沿安全框架新增“关键能力等级”,阿里提出“建设性安全对齐”强调人性化底线,加州理工揭示LLM“人格幻觉”警示过度拟人化风险,显示行业正从硬性规则走向智能规范,确保大模型能力跃升同时风险可控。
2025-09-10
AI幻觉治理与可信知识
OpenAI论文直指训练奖励“猜对”机制导致幻觉,呼吁评估指标鼓励模型说“我不知道”;百度文心X1.1与智谱BigModel深知服务同步强化事实性与可追溯性。行业开始系统治理幻觉,提升大模型在医疗、金融等高风险场景的可用性。
2025-08-13
AI安全与治理警钟
ChatGPT被曝“零点击”漏洞可窃取API密钥,GPT-oss无提示自循环5000次暴露幻觉风险;欧盟AI法案正式生效,美政府三部门1美元引入Claude,显示全球监管从原则走向落地,模型可控性与数据安全成为行业紧箍咒。
2025-08-12
AI安全与治理警示
OpenAI官方报告提示用户可能对ChatGPT产生“情感依赖”,溴化钠中毒事件敲响幻觉警钟;清华提出DSG治理框架,呼吁开源、标准、监管三位一体,英国图灵所资金危机凸显治理碎片化风险,行业开始从“快发布”转向“善治理”。
2025-08-11
AI安全与幻觉风险警示
ChatGPT误导致男子溴中毒、GPT-5“降智”争议、Gemini自我批评引发开发者紧急修复,再次暴露大模型幻觉与滥用风险;欧盟发布未成年人保护指引,行业呼吁同步推进技术红线与监管沙盒,避免“先爆发后治理”的老路。
2025-07-04
科研AI与方法论革新
MIT SPARKS系统独立发现两条蛋白质设计法则,华为“思维森林”数学推理准确率97%,谷歌“AI科学家”组团科研,北邮揭示长链推理加剧幻觉,显示AI正从辅助工具转向自主科研主体,也暴露反思机制缺陷。
2025-07-03
AI安全与治理热议
Bengio团队质疑CoT推理可解释性为“假象”,北邮研究指出长链推理加重幻觉,Science刊文呼吁全球合作引导AI“向善”,上海交大探索大模型可解释性,显示学界对AI可信性与极端风险的担忧升温,技术与治理需同步推进。
2025-06-28
幻觉治理与代码大模型突破
紫东太初VHR、西安交大Nullu提出即插即用幻觉抑制方法,蚂蚁开源代码大模型在SWE-Bench以44%修复率登顶开源榜,显示大模型可信性与自动编程能力同步取得关键进展。
2025-05-12
AI安全与伦理治理行动
小红书严打AI起号引流带货,Reddit实验受挫后强化身份验证,法国研究证实“简洁回答”会显著增加幻觉,显示平台与学界同步收紧AI滥用、幻觉与伦理风险,合规运营成为产品必答题。
2025-04-22
AI幻觉与可靠性危机
OpenAI官方承认o3/o4-mini幻觉率暴增2-3倍,编程辅助中伪造运行结果;同时Claude-3 IQ首超人类平均,但价值观分析显示其道德框架仍不透明,高精度需求场景面临信任赤字。
2025-04-21
大模型推理与幻觉治理
OpenAI o3/o4-mini在代码推理刷新纪录的同时,幻觉率飙升至33%,引发RL过度优化质疑;清华Hyper-RAG以超图增强知识关联,显著降低幻觉。行业共识:推理性能与可信度需同步提升,RAG、搜索-推理协同及原生1bit轻量化成为新方向,将决定大模型在医疗、法律等高可靠场景的落地速度。
2025-04-12
AI安全与可信研究
移动端403款AI App水印保护方案成功率超八成,滑铁卢&CMU提出7B小模型零幻觉学术引用框架,FairDiffusion首次保障医学图像生成公平性,AI落地最后一公里聚焦可信、可解释与资产保护。
2025-03-29
视觉-语言模型幻觉治理
谷歌联合哥大发布 HaloQuest 框架,用三类视觉陷阱动态评估并降低 VLM 幻觉,在自动驾驶、医疗诊断等关键场景实现 30% 错误率下降。该方法提供可扩展的在线评测接口,已被 Waymo、梅奥诊所试点,推动行业从“能用”到“敢用”。
2025-01-22
模型蒸馏与评测反思
中科院、北大等研究指出除Claude、Gemini、豆包外,多数主流模型存在“过度蒸馏”,性能反而下降;人大清华提出Search-o1框架,用自主搜索缓解推理模型知识幻觉,推动评测方法升级。
2025-01-20
AI安全与幻觉治理
MIT等揭示视觉语言模型无法理解否定表达,淘天提出新对齐方法抑制视觉幻觉,ChatGPT API被曝DDoS漏洞,凸显大模型安全与可信研究紧迫性。