FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%,凸显其逻辑推理短板;同时业界持续争论LLM是否具备真正“推理”能力,提示通往AGI仍有关键缺口,亟需新算法与评测体系突破。
斯坦福Evo模型与清华团队Science封面研究相继实现DNA/RNA/蛋白质全基因组级设计,天鹜科技超亿元融资加速功能蛋白预测,标志AI正跨越分子到基因组尺度,重塑合成生物学与药物研发范式。
谷歌新Gemini重夺竞技场榜首,Claude 3.6在《我的世界》盖楼展现Agent迭代能力,MEGA-Bench评测显示CoT对开源多模态模型反而有害,反映多模态理解与复杂任务执行仍处快速演进期。
AKOOL凭面部增强与实时数字人技术获4000万美元营收引爆广告界,千原传媒分享达人营销实操,显示中国AI工具在海外市场通过社媒红人实现快速破圈,商业化路径逐渐跑通。
清华人工智能治理国际论坛与第八期治理大讲堂聚焦标准、创新与全球化,国家卫健委发布AI医疗应用场景指引,显示政策层正加快构建国际国内协同的AI治理与行业标准体系。
DeepMind与利物浦合作推出TacticAI角球战术系统,ShadowGPT利用GPT读量子实验数据求解多体问题,显示大模型在体育、量子科研等细分场景开始产生实用价值。