2024-11-16 AI话题 - AI快开门

大模型数学与推理能力瓶颈

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%，凸显其逻辑推理短板；同时业界持续争论LLM是否具备真正“推理”能力，提示通往AGI仍有关键缺口，亟需新算法与评测体系突破。

斯坦福Evo模型与清华团队Science封面研究相继实现DNA/RNA/蛋白质全基因组级设计，天鹜科技超亿元融资加速功能蛋白预测，标志AI正跨越分子到基因组尺度，重塑合成生物学与药物研发范式。

谷歌新Gemini重夺竞技场榜首，Claude 3.6在《我的世界》盖楼展现Agent迭代能力，MEGA-Bench评测显示CoT对开源多模态模型反而有害，反映多模态理解与复杂任务执行仍处快速演进期。

AKOOL凭面部增强与实时数字人技术获4000万美元营收引爆广告界，千原传媒分享达人营销实操，显示中国AI工具在海外市场通过社媒红人实现快速破圈，商业化路径逐渐跑通。

清华人工智能治理国际论坛与第八期治理大讲堂聚焦标准、创新与全球化，国家卫健委发布AI医疗应用场景指引，显示政策层正加快构建国际国内协同的AI治理与行业标准体系。

DeepMind与利物浦合作推出TacticAI角球战术系统，ShadowGPT利用GPT读量子实验数据求解多体问题，显示大模型在体育、量子科研等细分场景开始产生实用价值。

EMNLP 2024华人团队斩获多篇最佳论文，港科大广州招收AI for Protein全奖博士，量子位启动2024人工智能年度评选，反映华人学术影响力提升与行业人才竞争加剧。