推理速度优化

32B/70B模型在双3090上的推理速度

[原帖询问双3090在32B/70B模型上的推理速度，评论者们分享了不同硬件、量化方式、运行环境下的速度数据，还有一些关于硬件选择、成本效益的讨论]

[原帖提出纯Rust的本地LLM推理替代方案，评论围绕其与llama.cpp对比、性能、Rust相关话题等展开，有质疑、支持等不同态度]

[原帖作者对M1 Pro和M4 Max进行推理速度测试并分享结果与想法，评论者们围绕测试内容补充数据、提出疑问、表达认可或给出技术建议等]

[帖子介绍了Phi - 4 - Mini在Intel PCs上的性能指标，评论主要是提出各种疑问、关注技术进展以及性能比较等方面的内容，整体氛围比较平和]

[原帖对比AMD不同驱动在特定测试中的性能，评论围绕AMD驱动性能展开，涉及与其他技术比较、不同环境下的适用性等，整体氛围比较理性探讨]

[围绕双3090与NVLink的本地最快推理选项展开讨论，涉及多种软件、硬件相关因素对推理速度的影响，氛围积极且充满技术交流]

[原帖讨论5090的推理速度，评论围绕5090的价格、供应、性能对比、游戏适用性等方面展开，有技术分析、购买体验分享、对测试的质疑等多种观点，整体氛围较活跃。]

[原帖分享在LMStudio下推测性解码效果好，评论者围绕在不同设备和模型下推测性解码的结果、性能提升情况、遇到的问题等展开讨论，整体氛围较为理性探讨]

[原帖分享可在Mac神经引擎运行模型的Anemll项目，评论者对该项目及相关技术从不同角度展开讨论，包括技术细节、潜在影响、项目前景等，整体氛围积极且充满好奇]

[围绕Cerebras为Mistral Le Chat带来即时推理展开讨论，涉及产品价格、性能、技术相关话题，氛围积极且充满好奇]