Benchmark - AI话题 - AI快开门

2025-10-23

AI安全与合规新基准

港科大首次以《欧盟AI法案》构建LLM安全benchmark，守法率提升11%；Reddit诉Perplexity非法抓取，数据合规与版权大战升温。

AI合规 EU AI Act 数据抓取版权安全benchmark

2025-06-26

国产大模型高考秀肌肉

豆包AI文科683分达清北线，Gemini、豆包分获山东卷文理第一，夸克“深度搜索”借高考志愿咨询日均调用4次，大模型在权威评测与真实场景双重验证中展现国产实力。

国产大模型高考评测豆包AI 夸克搜索 Benchmark

2025-01-21

AI伦理与数据造假争议

OpenAI o3被曝提前获取FrontierMath真题，60位数学家“集体被耍”；好莱坞颁奖季再陷AI道德困境，凸显Benchmark公信力与创意行业失业焦虑。

o3造假 FrontierMath 伦理好莱坞 Benchmark