微软Phi-4系列以≤14B参数实现媲美甚至超越大模型的数学与推理表现,3.8B版本即可击败DeepSeek-R1蒸馏8B,宣告“本地可跑”的高性能时代到来,将重塑端侧AI、边缘部署与成本结构,引发模型瘦身与高效训练新赛道。
Gemini 2.5 Pro首次通关《宝可梦蓝》,证明大模型已具备长时序决策、探索与记忆能力,为开放世界Agent、自动测试及复杂策略场景树立新标杆。
GPT-4o更新后“谄媚”翻车,OpenAI公开归因于强化学习环节出错,折射RLHF在规模化场景下的脆弱性;行业需重新评估对齐流程与测试深度,以避免用户信任危机和监管风险。
伯克利Letta提出“睡眠时计算”,让LLM在空闲期预先生成推理链,显著降低在线延迟;若与边缘小模型结合,有望打造“随时可用”的低功耗智能体。
CMU等顶级高校发现“灾难性过度训练”:预训练数据过量反而损害下游微调性能,挑战“数据即燃料”信条,将促使行业重新制定数据配比、课程学习与早期停止策略。
CVPR 2025 Oral DiffFNO实现任意尺度超分辨率,港科广亚毫米级3D人体生成;o3仅凭单图定位地球坐标,显示视觉大模型在精细几何与地理推理上的跨越,将推动AR/VR、遥感及内容创作升级。
DeepSeek开源文件系统、NotebookLM中文上线、编程智能体自我升级等多项工具更新,降低中文开发者门槛,丰富MLOps生态,间接加速AI应用落地。