原贴链接

嘿,r/LocalLLaMA社区的朋友们!我们再次回来发布DeepSeek - V3 - 0324(671B)的1.78位及更多GGUF格式的动态量化版本,这样你就可以在本地运行它们了。所有GGUF文件都在[https://huggingface.co/unsloth/DeepSeek - V3 - 0324 - GGUF](https://huggingface.co/unsloth/DeepSeek - V3 - 0324 - GGUF)。我们最初提供了1.58位版本,你仍然可以使用它,但它的输出效果不是很好。所以,我们发现有必要通过增加下投影大小将其升级到1.78位以获得更好的性能。为了确保在准确性和大小之间达到最佳平衡,我们不量化所有层,而是有选择地对例如混合专家(MoE)层进行低比特量化,将注意力层和其他层保持在4位或6位。这次我们还添加了3.5 + 4.5位动态量化。阅读我们关于如何在llama.cpp上运行GGUF的指南:[https://docs.unsloth.ai/basics/tutorial - how - to - run - deepseek - v3 - 0324 - locally](https://docs.unsloth.ai/basics/tutorial - how - to - run - deepseek - v3 - 0324 - locally)。我们还发现如果你将所有层转换为2位(标准2位GGUF),模型仍然非常差,会产生无限循环、乱码和非常差的代码。我们的动态2.51位量化很大程度上解决了这个问题。1.78位也有同样的情况,但为了获得最佳结果,建议使用我们的2.51版本。然后给出了模型上传的不同版本信息,包括混合专家(MoE)比特、类型、磁盘大小、Hugging Face链接等。还给出了推荐设置,如温度为0.3(编码时可能为0.0)、Min_P为0.00(可选,0.01效果也不错,llama.cpp默认值为0.1)、聊天模板、自动添加的BOS令牌、DeepSeek提到使用的系统提示(可选,为中文内容并给出翻译)、对于KV缓存量化,使用8位而不是4位(发现4位效果明显更差)。最后建议人们现在运行2.71位版本,因为其他标记为初步(prelim)的位量化版本仍在处理中,并给出了代码示例用于下载特定版本。作者还做了Flappy Bird和Heptagon测试。

讨论总结

这个讨论围绕DeepSeek - V3 - 0324的量化版本展开。发布者提供了多种量化版本及其相关设置等内容。大多数评论者对发布者的工作成果表示赞赏、感谢,认为Unsloth的文档详尽,工作成果运行速度快等。同时也有很多针对不同量化版本在性能、硬件需求、代码生成等方面的交流,还有人提出疑问或寻求帮助。

主要观点

  1. 👍 Unsloth工作成果令人惊叹且文档详尽
    • 支持理由:评论者指出Unsloth不仅工作成果好,还提供非常详尽的文档和指南,博客容易阅读且具有学习价值。
    • 反对声音:无
  2. 🔥 2.71位量化版本表现不错
    • 正方观点:很多评论者表示该版本与完整模型结果相比表现良好,在代码生成方面表现较好,有人整个晚上运行后表示满意。
    • 反方观点:有评论者表示2.42位比2.71位更好。
  3. 💡 希望有人对比不同版本模型在编码方面的表现
    • 解释:虽然模型大小不同,但对比结果有助于判断DeepSeek - v3 - 0324低量化用于编码的价值。

金句与有趣评论

  1. “😂 What I like about Unsloth is that not only they are doing amazing work, but also provide always very thorough documentation and guidelines.”
    • 亮点:强调了Unsloth的工作成果和文档的优点。
  2. “🤔 我整个晚上都在运行2.71位的量化,与通过Fireworks从完整模型得到的结果相比,我对它非常满意。”
    • 亮点:表达了对2.71位量化版本的满意。
  3. “👀 如果有人能够运行一些编码提示,对比DeepSeek - v3 - 0324的2.71位版本(Q2_K_XL)和QwQ - 32b的8位版本,并分享结果,那将非常感激。”
    • 亮点:提出了一个有价值的模型对比需求。

情感分析

总体情感倾向为正面,多数评论者对发布者的工作成果表示赞赏、感谢。主要分歧点在于不同量化版本之间的性能比较,例如2.42位和2.71位量化版本哪个更好。可能的原因是不同用户在不同的使用场景和硬件环境下得到了不同的结果。

趋势与预测

  • 新兴话题:关于模型量化与数学常数之间的关系(如2.71 - bit模型与欧拉数的关系)可能引发后续讨论。
  • 潜在影响:如果这些量化模型能够得到更广泛的应用,可能会对人工智能在本地设备上的运行效率和成本产生积极影响。

详细内容:

标题:关于 DeepSeek-V3-0324 多种量化版本的热门讨论

在 Reddit 的 r/LocalLLaMA 板块,一则有关 DeepSeek-V3-0324 多种量化版本的帖子引发了众多关注。该帖子详细介绍了 1.78 位及更多格式的动态量化模型,并提供了相关链接和运行指南,获得了大量的点赞和丰富的评论。

讨论的焦点主要集中在不同量化版本的性能表现、适用场景以及与其他模型的比较等方面。有人表示对 Unsloth 的工作赞赏有加,称赞其不仅成果出色,还提供了详尽的文档和指南。比如,[ResearchCrafty1804] 认为 Unsloth 工作出色且文档详尽;[danielhanchen] 则感谢大家的支持,并表示会继续撰写详细文档。

部分用户分享了自己的使用体验。[thereisonlythedance] 称运行 2.71 位量化版本一整晚,效果令人满意。[RagnarokL] 分享了在特定硬件配置下的运行速度和效果,其系统配置包括技嘉 MS33-CP 主板、英特尔至强 48 核工程样本、256GB DDR5 内存、3090 显卡,在 8192 上下文环境中,使用 KTransformers 时 2.71 位版本每秒生成 15 个令牌,并且认为 2.42 位比 2.71 位更好。

关于不同量化版本的比较和选择,也存在诸多讨论。[ResearchCrafty1804] 希望有人能对比 DeepSeek-V3-0324(Q2_K_XL)的 2.71 位版本和 QwQ-32b 的 8 位版本在编码方面的表现。[Lissanro] 则关心是否会有更高智商的量化版本。

在适用硬件和环境方面,有人询问了运行所需的电脑规格和云服务选择,[danielhanchen] 建议等待云服务的折扣,并指出可以使用 llama.cpp 运行。

总之,这次关于 DeepSeek-V3-0324 量化版本的讨论十分热烈,大家从不同角度分享了观点和经验,为其他用户提供了丰富的参考和借鉴。