高效推理 - AI话题 - AI快开门

2026-03-08

多模态与高效推理创新

Yann LeCun、谢赛宁联合强调多模态预训练是后LLM时代主路径；Parallel-Probe破解无效并行，推理提速35.8%；30B参数REDSearcher以低成本实现深度搜索Agent，高效能与多模态并进。

多模态预训练并行推理 REDSearcher 高效推理 LeCun

2025-10-18

高效推理与模型协作框架

R-Stitch动态拼接、北航-浙大4倍提速、EXO Lab Mac Studio 2.77倍加速等方案，通过“大小模型协同”“消费级硬件分布式”降低推理成本，缓解算力焦虑。技术路线已获学术与工程双重验证，预示云端与边缘混合部署将成为大模型落地标配。

高效推理大小模型协同边缘计算分布式推理 R-Stitch

2025-05-02

超长上下文与高效推理突破

英伟达与UIUC把Llama上下文扩至400万token创SOTA；微软Phi-4系列以小参数量逼近GPT-4o推理表现；LoRA冗余研究称可剪枝95%参数不降性能，推动端侧与低成本部署。

超长上下文 Phi-4 LoRA剪枝高效推理端侧部署