大模型推理 - AI话题

2025-10-26

NVIDIA联合港大、MIT推出Fast-dLLM v2，端到端吞吐提升2.5倍；同时上下文敏感框架解决位置偏差，显示大模型系统层创新仍是落地关键，硬件-算法协同优化空间巨大。

2024-10-12

苹果论文指出大模型在“废话”干扰下推理崩溃，学界再谈LLM逻辑谬误，引发对Scaling Law之外推理可靠性的深度反思。

2024-02-01

NVIDIA TensorRT-LLM、无注意力Eagle7B、LLaVA-1.6、MM-Interleaved等框架与模型相继发布，在推理速度、多模态理解、OCR等方向刷新SOTA；蚂蚁开源AI Infra实现大模型训练“自动驾驶”，降低行业门槛。

2024-01-08

聚焦2024年初大模型在推理速度、上下文长度、参数效率等核心瓶颈上的突破，涵盖LoRA压缩、RAG召回、多轮对话加速、上下文扩展四行代码等方案，为端侧部署与企业降本提供关键支撑。

AI快开门