2026-03-08

多模态与高效推理创新

Yann LeCun、谢赛宁联合强调多模态预训练是后LLM时代主路径;Parallel-Probe破解无效并行,推理提速35.8%;30B参数REDSearcher以低成本实现深度搜索Agent,高效能与多模态并进。
2025-10-18

高效推理与模型协作框架

R-Stitch动态拼接、北航-浙大4倍提速、EXO Lab Mac Studio 2.77倍加速等方案,通过“大小模型协同”“消费级硬件分布式”降低推理成本,缓解算力焦虑。技术路线已获学术与工程双重验证,预示云端与边缘混合部署将成为大模型落地标配。
2025-05-02

超长上下文与高效推理突破

英伟达与UIUC把Llama上下文扩至400万token创SOTA;微软Phi-4系列以小参数量逼近GPT-4o推理表现;LoRA冗余研究称可剪枝95%参数不降性能,推动端侧与低成本部署。