原贴链接

今天qwen - 2.5 - 32B发布了,超级兴奋。我在本地设备(3个P40,1个3090)上对Q4和Q8量化进行了基准测试。一些观察结果:3090很强大,在32K上下文下每秒28个标记(tok/sec),在很多编码场景中非常可用;P40仍然令人惊喜,单个P40能达到每秒10个标记,完全可用;3个P40在Q8下能轻松处理120K上下文;更多P40不会提升性能,使用 - sm row会大幅提升性能,可惜ollama可能永远不会支持;提高P40的功率限制(250w对比160w)不会提高性能,单个P40测试中约使用200W,在3xP40行分割模式测试中,很少超过120W。还有关于设置(如llama.cpp提交版本、温度、系统提示、提示内容)以及结果(不同量化、GPU组合下的上下文、提示处理每秒数、生成每秒数)和llama - swap设置等内容。

讨论总结

原帖发布了qwen - 2.5 - 32B在本地设备(3xP40,1x3090)上的基准测试结果,包括不同量化、不同GPU设置下的性能数据等。评论者们从多个方面展开讨论,如P40显卡的性价比、功率限制与性能的关系,不同量化(Q4 KM、Q8等)之间的性能比较,对原帖中特定设置(如缓存设置)的疑问,针对多GPU情况提升性能的建议,对Ollama不支持特定性能提升设置的疑惑与不满,以及分享自己在其他设备(如M1 Ultra、m4 max MacBook Pro)上的测试数据并对原帖表示认可等,整体氛围是积极的技术交流氛围。

主要观点

  1. 👍 P40在低于200美元购买时是超值显卡且超过140W功率无更多收益
    • 支持理由:根据评论者经验得出。
    • 反对声音:无。
  2. 🔥 在多GPU情况下应使用VLLM或MLC来提高推理速度
    • 正方观点:认为可显著提升速度。
    • 反方观点:VLLM与P40s配合不便,llama.cpp对P40s是较好选择;MLC存在性能差、无闪光注意力、编译失败、量化转换限制等问题。
  3. 💡 有文章对多种量化进行50万次评估,结果显示Q4 KM与Q8等差异不大
    • 解释:通过分享的博客文章得出结论。
  4. 👍 原帖信息有用,为多P40拥有者提供可尝试的设置和速度基准
    • 支持理由:原帖数据可用于参考测试。
    • 反对声音:无。
  5. 🔥 对Ollama不支持-sm row(可提升性能)表示疑惑和不满
    • 正方观点:该特性对旧显卡使用者有帮助,Ollama不支持不合理。
    • 反方观点:无。

金句与有趣评论

  1. “😂 my_dude:You don’t really benefit from more than 140w on P40 IME.”
    • 亮点:基于个人经验给出P40功率使用的观点。
  2. “🤔 What’s the implication of this? It does compress quantize the cache?”
    • 亮点:对原帖特定设置提出疑问。
  3. “👀 iamn0: You should be using VLLM or MLC; with multiple GPUs, this will significantly improve inference speed.”
    • 亮点:提出提升多GPU推理速度的建议。
  4. “😎 Daemonix00:nice! thanks for the stats.”
    • 亮点:表达对原帖统计数据的认可。
  5. “🤨 Why in the world will Ollama not support -sm row ? Bah!”
    • 亮点:表达对Ollama不支持-sm row的疑惑与不满。

情感分析

总体情感倾向是积极的。主要分歧点在于在多GPU情况下选择何种方式提高推理速度,如VLLM或MLC是否可行。可能的原因是不同的使用者对不同工具的使用体验不同,例如有人觉得VLLM与P40s配合不便,而有人认为可尝试新的工具来提升性能。

趋势与预测

  • 新兴话题:关于不同设备(如M1 Ultra、m4 max MacBook Pro等)上qwen - 2.5 - 32B的性能测试数据分享可能会引发更多人在不同设备上进行测试并分享结果的讨论。
  • 潜在影响:对qwen - 2.5 - 32B在不同硬件设备和设置下的性能优化提供更多参考,有助于相关技术人员更好地使用该模型,同时也可能影响其他类似模型在性能测试方面的研究方向。

详细内容:

标题:qwen-2.5-coder 32B 基准测试引发的热门讨论

今天,qwen-2.5-coder 32B 的发布让人兴奋不已,有用户在自己的本地设备(3xP40 和 1x3090)上进行了基准测试,并分享了一系列观察结果。该帖子获得了众多关注,引发了广泛而热烈的讨论。

主要讨论方向包括不同显卡的性能表现、功耗限制对性能的影响、模型量化的相关问题,以及不同工具和设置对推理速度的提升作用等。

讨论焦点与观点分析: 有人指出,在 P40 上,超过 140w 的功耗并没有带来明显的性能提升,比如有人说:“你在 P40 上不会真正从超过 140w 的功耗中受益。如果你以低于 200 美元的价格买到,那它们是非常超值的卡。” 还有用户分享了自己的经历:“当在 3 个 P40 上运行模型时,在推理期间它很少超过 120W。我有一个 1000W 的电源,主要是为了确保在所有设备运行时不会跳闸。”

关于模型量化,有人提出疑问:“–cache-type-k q8_0 –cache-type-v q8_0 这意味着什么?它是对缓存进行压缩量化吗?否则我确实无法在 24GB 上加载 32k 上下文的 32b q4 k_m!这会导致质量损失吗?” 对此,有人回应:“这就是你对 kv 缓存进行量化的方式。” 并且提到:“它将内存使用量减半,因为默认值是 16 位。我还没有注意到有任何差异。”

在比较不同量化类型的性能方面,有人提到:“Q4 KM 与 Q8 甚至 fp8/16 相比有多好?” 并给出相关博客文章链接https://neuralmagic.com/blog/we-ran-over-half-a-million-evaluations-on-quantized-llms-heres-what-we-found/进行讨论。

对于提升推理速度的方法,有人建议使用 VLLM 或 MLC,特别是在多 GPU 环境下,但也有人指出 VLLM 对 P40 不太适用, llama.cpp 目前仍是 P40 的较好选择。

讨论中的共识是大家都对性能测试和优化非常关注,并且认为分享这些经验对于其他用户具有重要的参考价值。一些独特的观点,如关于不同量化方式对性能和内存的影响,丰富了整个讨论的内容。

总之,这次关于 qwen-2.5-coder 32B 基准测试的讨论,为广大技术爱好者提供了宝贵的经验和见解。