原贴链接

感谢u/fairydreaming所做的所有工作！如果有人想要测试的话，我已经在我的HF仓库中为最新提交更新了量化（quants）。[https://huggingface.co/bullerwins/DeepSeek - V3 - GGUF](https://huggingface.co/bullerwins/DeepSeek - V3 - GGUF)。Q4_K_M似乎表现非常好，在一次MMLU - Pro计算机科学测试中得到了77.32分，相比之下u/WolframRavenwolf通过API得到的分数为77.80 - 78.05分。

讨论总结

这个讨论围绕DeepSeek - V3支持被合并到llama.cpp展开。在技术方面，大家探讨了DeepSeek - V3的加速技术能否本地使用、智能卸载的顺序、不同操作的加速效果等内容；对于推理速度，人们关注基于CPU和内存的测试结果、不同量化下的速度、受上下文长度的影响等；硬件方面则涉及运行所需资源、硬件性能、成本考量等，讨论中有疑惑、有观点交流、也有幽默调侃，整体氛围积极。

主要观点

👍 好奇DeepSeek - V3的加速技术能否本地使用
- 支持理由：论文提到相关加速技术，引发人们对本地使用可能性的好奇。
- 反对声音：无。
🔥 运行相关内容需要较大的VRAM + RAM或多GPU资源
- 正方观点：如在一定条件下运行需要400GB以上的VRAM + RAM等资源。
- 反方观点：有人认为仅用CPU + RAM也能运行，但效果因人而异。
💡 推理速度受上下文长度影响
- 解释：不同用户根据测试经验或分析，认为上下文长度是影响推理速度的因素之一。
🤔 对仅加速路由器模型的意义表示疑惑
- 解释：因为路由器模型不大，只加速它似乎价值不大，引发了疑惑和讨论。
😎 不同AWS实例下Q5_K_M量化的推理速度测试结果不同
- 解释：用户通过测试给出不同AWS实例下的结果，为了解量化对推理速度的影响提供参考。

金句与有趣评论

“😂 Thomas - Lore：I wonder if the techniques to speed it up talked about in their paper will be able to be used locally - they talk about detecting the most commonly used experts and moving them to vram for example.”
- 亮点：引出对DeepSeek - V3加速技术本地使用的讨论。
“🤔 TyraVex：What about only offloading the router model to vram like ktransformers did for Deepseek v2?”
- 亮点：提出一种关于路由器模型卸载到vram的设想，开启相关讨论。
“👀 animealt46：I thought CPU was usable with Deepseek 3 due to the small size of experts.”
- 亮点：对CPU用于Deepseek 3给出一种基于专家模型小的观点。
“😄 lolzinventor：2 tok/sec with DDR4 2400.”
- 亮点：给出具体硬件下的推理速度数值。
“😜 MrWeirdoFace：Oh good. I’m only 376GB or so short.”
- 亮点：以幽默的方式回应硬件需求的言论。

情感分析

总体情感倾向是积极的。主要分歧点在于硬件资源方面，例如运行相关内容所需的硬件配置、双CPU主板的性能理解等。可能的原因是不同用户拥有不同的硬件资源和使用需求，对硬件性能的期望和理解也存在差异。

趋势与预测

新兴话题：可能会有更多关于llama.cpp中不同模型在各种硬件上的性能测试及对比。
潜在影响：对相关人工智能模型开发和优化在硬件选择、性能提升等方面提供更多参考。

详细内容：

标题：关于 DeepSeek-V3 在 llama.cpp 中的支持引发的热门讨论

在 Reddit 上，一则关于“DeepSeek-V3 support merged in llama.cpp”的帖子引起了广泛关注。该帖子包含了众多链接，如https://github.com/ggerganov/llama.cpp/pull/11049 等，并收获了大量的点赞和评论。帖子主要探讨了 DeepSeek-V3 在 llama.cpp 中的更新情况以及相关的性能测试和优化方案。

讨论的焦点集中在如何提高模型的运行速度和优化资源利用上。有人认为通过智能卸载等技术可以提高速度，比如将最常用的专家模型移至 VRAM 中。例如，有用户分享道：“Layer Norms 约 0.5MB，Embeddings 约 1GB，Attention projections 约 11GB，3 密集层约 1.2GB，Shared expert 约 2.5GB。如果有更多资源，将 kvcache 放入内存可能比仅针对专家模型更可取，因为它一直被使用。”

还有用户提出疑问，如“TyraVex”问道：“像 ktransformers 对 Deepseek v2 所做的那样，只将路由器模型卸载到 vram 中可以吗？llama.cpp 能够做到这种事情吗？”但“animealt46”回应称：“这样做能达到什么效果呢？路由器并不大，所以仅仅加速这部分似乎不值得。”

在性能测试方面，有用户分享了不同硬件配置下的推理速度。例如，“lolzinventor”表示使用 DDR4 2400 时为 2 tok/sec，“Caffeine_Monster”则指出速度还取决于上下文长度。

一些有趣或引发思考的观点也不断涌现。比如“DeProgrammer99”好奇如果需要时从 SSD 加载专家模型会有多慢，平均每个令牌切换专家模型的次数是多少。

总的来说，这次关于 DeepSeek-V3 在 llama.cpp 中的讨论展现了技术爱好者们对于模型优化和性能提升的热情和深入思考，大家都在期待着更出色的优化方案和更高的运行效率。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#