原贴链接

TLDR: M40在eBay上80美元的价格非常超值,目前的性价比优于P40。它的速度大约比P40慢25%,但我认为这并不重要,因为P40对于高度量化的70B模型来说已经太慢了。Gemma 2 27B在我看来以完全合理的速度运行,特别是如果你使用Q4+iMatrix(12 t/s)。如果你预算有限,你不会对M40失望的。


今天刚收到一块M40。我惊讶地发现,可以在Windows上使用MSI Afterburner对GPU进行超频。我启用了P40上的Flash Attention,并为两块GPU使用了Ollama。

了解了一些关于这块卡的怪癖,但总的来说,我认为它物超所值(目前的性价比优于P40)。

以下是结果:

Gemma 2 27B @ 8192上下文(Q4KM)
P40 - 12.8 t/s
超频M40 - 9.14 t/s
(提示处理:P40 - 256 t/s,M40 - 74 t/s)

Gemma 2 27B @ 8192上下文(Q4 + iMatrix)
P40 - 15 t/s
超频M40 - 12 t/s
(提示处理:P40 - 269 t/s,M40 - 73 t/s)

Llama 3.1 8B @ 8192上下文(Q6K)
P40 - 31.98 t/s
超频M40 - 23.75 t/s
(提示处理:P40 - 750 t/s,M40 - 302 t/s)

怪癖:我建议尽可能使用旧版Quants与M40。在这种情况下,M40仅比P40慢20%。如果使用QXKM quants,则慢30%。提示处理速度是这里的主要差异,P40的速度是M40的几倍。

超频:我在M40上通过+112核心和+750内存获得了1-1.5 t/s的生成速度提升。Flash Attention无法在M40上启用,而P40无法超频。

讨论总结

本次讨论主要集中在M40和P40 GPU的性能比较、性价比以及超频潜力上。多数用户认为,尽管M40在性能上比P40慢约25%,但其低廉的价格(80美元)使其在预算有限的情况下成为一个极具吸引力的选择。超频技术的应用进一步提升了M40的性能,使其在某些测试中接近P40。此外,讨论还涉及了冷却和功率管理,以及使用3D打印适配器和软件解决方案来优化GPU的使用。总体而言,讨论呈现出一种实用主义的氛围,强调在预算和性能之间找到平衡点。

主要观点

  1. 👍 M40在性价比上优于P40
    • 支持理由:M40在eBay上的价格仅为80美元,性价比远超P40。
    • 反对声音:M40的性能比P40慢约25%,对于高性能需求的用户可能不够。
  2. 🔥 超频可以显著提升M40的性能
    • 正方观点:通过MSI Afterburner超频,M40的性能可以接近P40。
    • 反方观点:超频可能带来不稳定性和潜在的硬件风险。
  3. 💡 M40在处理大型模型时仍是一个可行的选择
    • 解释:尽管P40对于大型模型已经不够快,M40在预算有限的情况下仍能满足需求。
  4. 🌟 3060 12GB可能是更好的选择
    • 解释:考虑到多功能性和8B模型的进步,3060 12GB在某些情况下可能更优。
  5. 🚀 P40在提示处理速度上具有优势
    • 解释:P40的提示处理速度几乎是M40的两倍,这在许多应用中至关重要。

金句与有趣评论

  1. “😂 ThisWillPass:Love these posts 👍”
    • 亮点:表达了对这类技术讨论的喜爱和支持。
  2. “🤔 kiselsa:What do you mean too slow for 70bs? 2x P40 run q4km llama 3 70b at 5-7 t/s.”
    • 亮点:对“P40已经太慢”的观点提出质疑,提供了实际测试数据。
  3. “👀 Eisenstein:The P40 is doing prompt processing twice as fast, which is a big deal with a lot use cases.”
    • 亮点:强调了P40在提示处理速度上的优势,对许多应用场景至关重要。

情感分析

讨论的总体情感倾向是积极和实用的,多数用户认为M40在预算有限的情况下是一个不错的选择。主要分歧点在于M40和P40的性能比较,以及超频带来的潜在风险。用户普遍对性价比和实用性给予高度评价,而对性能的绝对要求则有所保留。

趋势与预测

  • 新兴话题:未来可能会有更多关于3060 12GB等新型GPU的讨论,以及它们在性价比和性能上的表现。
  • 潜在影响:随着技术的进步和市场的变化,用户可能会更加关注新型GPU的性价比和多功能性,而不仅仅是性能的绝对值。

详细内容:

标题:Reddit 热议:Overclocked M40 24GB 与 P40 的性能大比拼

最近,Reddit 上一篇关于“Overclocked M40 24GB 与 P40(Benchmark Results)”的帖子引起了广泛关注,获得了众多点赞和大量评论。帖子主要探讨了 M40 和 P40 这两款 GPU 的性能对比,并分享了详细的测试数据。

讨论的焦点集中在 M40 的性价比、性能表现、功耗冷却、驱动支持等方面。有人认为 M40 虽然在某些方面稍逊于 P40,但考虑到其只需 80 美元的价格,仍是超值之选。比如,有用户表示:“我感觉大家对 M40 有一种毫无根据的恐惧,虽然它老,但你确实做出了一些牺牲。但只要 80 美元就能让 Gemma 2 27b 达到 12 t/s 的速度。”但也有人觉得 Nvidia P102-100 10GB 性价比更高。

在性能方面,测试数据显示,M40 在不同模型和参数下的速度均低于 P40,但差距在可接受范围内。例如,“Gemma 2 27B @ 8192 上下文(Q4KM),P40 为 12.8 t/s,Overclocked M40 为 9.14 t/s 。”不过,也有人指出 M40 在某些特定情况下,如使用 legacy Quants 时,与 P40 的差距会缩小。

关于功耗和冷却,有人提到 M40 闲置时约 17 瓦,冷却相对容易,可在 eBay 上找到便宜的 3D 打印适配器和风扇。但同时也指出 M40 一旦开始限制功率,性能会下降较快。

对于驱动支持,有人担心 M40 的驱动很快会失去支持,但也有人认为短期内不是大问题,目前驱动仍在更新。比如有用户提到:“我不认为这是个大问题,它不会突然停止工作,而且目前的驱动仍在更新。”

总之,这场讨论展现了大家对 M40 和 P40 优缺点的深入分析和不同看法,也让更多人对这两款 GPU 有了更全面的认识。但关于 M40 的未来表现和价值,仍存在一定的争议和不确定性。