原贴链接

我看到了unlsoth模型,以及它们如何通过将主模型动态量化到2位并将模型大小缩小80%来获得出色的性能。相关文章见https://unsloth.ai/blog/deepseekr1 - dynamic。不过,即使缩小到80%的大小,当考虑到kv缓存和上下文时,要以任何可观的速度运行这些模型,仍然至少需要大约200GB的高带宽内存。即便如此,速度最多也只能达到5 - 6t/s,除非你能在24通道双EPYC系统上大肆投入。我很幸运有一个4x3090系统,所以我有96GB的显存可以使用。对我来说,96GB的显存是运行70B模型的理想选择,在这里可以运行更大的量化(6位及以上),并且还有足够的余量用于上下文窗口。这样做还能使速度达到15t/s以上(如果使用并行处理和草稿模型等会更快)。总之,我使用了70B蒸馏模型。我用ollama运行它,但我必须对其进行定制,使其在预期的0.6温度下运行,并将上下文窗口增加到16k(ollama愚蠢地将每个模型的默认上下文设置为2k)。然后我运行了unsloth的flappy bird测试提示,看看我能多么接近地复制它的性能。我给出了一个详细的游戏制作提示,模型给出了完整的回复并生成了一个完整的flappy bird游戏代码,这个回复满足了所有要求。我知道这个模型没有针对这个提示进行预训练,因为我用默认的2k上下文尝试过,第一次尝试时没有生成一个完全可用的游戏。Deepseek R1是一个推理模型,所以它需要足够的上下文来进行思考过程并产生输出。将上下文窗口从2k增加到16k使模型能够发挥其潜力。基础的R1模型实际上被设计为在128k上下文下运行,所以我将尝试在耗尽GPU内存之前能将上下文设置多高。但从2k到16k已经产生了更好的结果。所以,我很惊讶。我想知道那些使用蒸馏模型得到较差结果的人是否是因为没有给模型足够的上下文,或者运行的是4bpw或更低的量化。我认为对于这些模型,最好尝试获得6bpw或更高的量化,因为它们一开始就是蒸馏且未优化的。推理模型需要足够的上下文来执行思维链并产生输出。我只知道即使是蒸馏模型,只需稍加调整就非常棒。我相信在不久的将来,有人会真正优化这些蒸馏模型,我们将在合理的大小下获得接近前沿模型的性能。现在是成为本地大型语言模型爱好者的激动人心的时刻。

讨论总结

帖子作者声称能够用Deepseek R1蒸馏70B模型一键提示完成“python flappy bird游戏”测试。评论者们围绕这个话题展开讨论,主要涉及蒸馏模型性能、不同模型间的对比、测试模型的合理方式等内容,大家各抒己见,氛围较为积极。

主要观点

  1. 👍 用基础llama 70b指示模型做测试,看Deepseek蒸馏模型是否有改进
    • 支持理由:可直观对比出Deepseek蒸馏模型的优势。
    • 反对声音:无。
  2. 🔥 讨厌蒸馏模型是一种跟风行为,蒸馏模型实际上很不错
    • 正方观点:很多人未深入了解就说蒸馏模型不好,如32B模型表现不错。
    • 反方观点:有人认为蒸馏模型并不出色,人们是想喜爱这些模型,但实际上它们并不好。
  3. 💡 蒸馏模型是好的,原Flappy Bird测试目的是展示MoE模型动态量化效果
    • 支持理由:通过多种测试可以证明蒸馏模型有其优势。
    • 反对声音:无。
  4. 👍 认为Mistral和Qwen在相关事情上比Deepseek R1蒸馏模型做得更快
    • 支持理由:未明确提及,但直接表达此观点。
    • 反方观点:在llama蒸馏的情况下,Mistral和Qwen虽快但不一定更好。
  5. 💡 单轮提示不是衡量模型好坏的好标准,应关注模型在编辑现有代码方面的能力
    • 支持理由:大多数人是迭代性地处理现有代码。
    • 反对声音:原帖作者开始认为单轮提示可行,后承认过早下结论。

金句与有趣评论

  1. “😂 我认为,讨厌蒸馏模型变得流行起来,仅仅是因为所有的LLM新手蜂拥而入抱怨“R1”很烂的钟摆效应。”
    • 亮点:形象地指出人们讨厌蒸馏模型可能是一种跟风行为。
  2. “🤔 我做了一个llama 3.3 70B和R1 70B蒸馏模型的并排比较,蒸馏模型轻松胜过llama模型。”
    • 亮点:通过对比实验证明蒸馏模型性能不错。
  3. “👀 我不认为单轮提示是一个好的衡量标准。大多数人是迭代性地工作于现有代码。 那它在编辑现有代码时表现如何呢?”
    • 亮点:对原帖单轮提示完成测试的做法提出合理质疑。
  4. “😂 不,人们想要喜爱它们,希望它们很棒。但它们就是不行。”
    • 亮点:简洁地表达出与其他认为蒸馏模型不错的观点相反的意见。
  5. “🤔 Yea but you know flappy bird test is so famous it might just do it especially with that big prompt.”
    • 亮点:从测试本身的著名性角度对模型完成测试提出一种看法。

情感分析

总体情感倾向为积极探索。主要分歧点在于蒸馏模型的性能好坏以及单轮提示是否可作为衡量模型的标准。可能的原因是大家使用模型的场景、经验以及对模型评判标准的理解不同。

趋势与预测

  • 新兴话题:对推理模型上下文与答案准确性关系的探讨可能引发后续讨论。
  • 潜在影响:有助于优化模型测试方式和提高对模型性能的准确评估,对人工智能领域中模型开发与应用有积极的推动作用。

详细内容:

《Reddit 热门讨论:Deepseek R1 蒸馏模型在 Python 游戏开发中的出色表现》

在 Reddit 上,一则关于“python flappy bird game”测试的帖子引发了热烈讨论。该帖子介绍了作者使用 Deepseek R1 蒸馏 70B 模型的经历,获得了众多关注,点赞数和评论数众多。帖子主要探讨了在不同条件下该模型的性能表现,并分享了相关代码。

讨论的焦点主要集中在对蒸馏模型性能的评价上。有人认为 Deepseek 蒸馏模型表现出色,比如[bulliondawg]就表示蒸馏模型其实很不错,自己很喜欢 32B 模型。但也有人持不同意见,像[Secure_Reflection409]就觉得人们对蒸馏模型的期望过高,实际上它们表现不佳。

有用户分享道:“[Hisma] 完成了对比测试。Deepseek 蒸馏模型胜出。可查看我最近发布的运行此测试的帖子。”还有用户提供了相关的链接:https://huggingface.co/unsloth

对于模型的评价存在争议。[FUS3N] 认为 Flappy Bird 测试太出名,模型可能恰好会做。但[Hisma] 回应说在仅有 2k 上下文时模型就做不到。

也有用户提出新的想法,如[lordbourguignon]建议尝试做一个井字棋游戏。

[Hisma] 还进行了更多测试,将 llama 3.3 70B Q6_K 1 与 16k 上下文尝试进行相同的提示,结果显示 Deepseek R1 蒸馏模型表现更优。

总的来说,关于 Deepseek R1 蒸馏模型的性能评价存在分歧,但通过各种测试和讨论,为我们更全面地了解这一模型提供了丰富的视角。未来,对于这类模型的优化和应用或许还将引发更多深入的探讨。