← 返回列表

2024-11-16 AI 话题

📊 7 个话题 📰 18 条新闻

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%,凸显其逻辑推理短板;同时业界持续争论LLM是否具备真正“推理”能力,提示通往AGI仍有关键缺口,亟需新算法与评测体系突破。



谷歌新Gemini重夺竞技场榜首,Claude 3.6在《我的世界》盖楼展现Agent迭代能力,MEGA-Bench评测显示CoT对开源多模态模型反而有害,反映多模态理解与复杂任务执行仍处快速演进期。


AKOOL凭面部增强与实时数字人技术获4000万美元营收引爆广告界,千原传媒分享达人营销实操,显示中国AI工具在海外市场通过社媒红人实现快速破圈,商业化路径逐渐跑通。


清华人工智能治理国际论坛与第八期治理大讲堂聚焦标准、创新与全球化,国家卫健委发布AI医疗应用场景指引,显示政策层正加快构建国际国内协同的AI治理与行业标准体系。


DeepMind与利物浦合作推出TacticAI角球战术系统,ShadowGPT利用GPT读量子实验数据求解多体问题,显示大模型在体育、量子科研等细分场景开始产生实用价值。