原贴链接

TLDR: M40在eBay上80美元的价格非常超值，目前的性价比优于P40。它的速度大约比P40慢25%，但我认为这并不重要，因为P40对于高度量化的70B模型来说已经太慢了。Gemma 2 27B在我看来以完全合理的速度运行，特别是如果你使用Q4+iMatrix（12 t/s）。如果你预算有限，你不会对M40失望的。

今天刚收到一块M40。我惊讶地发现，可以在Windows上使用MSI Afterburner对GPU进行超频。我启用了P40上的Flash Attention，并为两块GPU使用了Ollama。

了解了一些关于这块卡的怪癖，但总的来说，我认为它物超所值（目前的性价比优于P40）。

以下是结果：

Gemma 2 27B @ 8192上下文（Q4KM）
P40 - 12.8 t/s
超频M40 - 9.14 t/s
（提示处理：P40 - 256 t/s，M40 - 74 t/s）

Gemma 2 27B @ 8192上下文（Q4 + iMatrix）
P40 - 15 t/s
超频M40 - 12 t/s
（提示处理：P40 - 269 t/s，M40 - 73 t/s）

Llama 3.1 8B @ 8192上下文（Q6K）
P40 - 31.98 t/s
超频M40 - 23.75 t/s
（提示处理：P40 - 750 t/s，M40 - 302 t/s）

怪癖：我建议尽可能使用旧版Quants与M40。在这种情况下，M40仅比P40慢20%。如果使用QXKM quants，则慢30%。提示处理速度是这里的主要差异，P40的速度是M40的几倍。

超频：我在M40上通过+112核心和+750内存获得了1-1.5 t/s的生成速度提升。Flash Attention无法在M40上启用，而P40无法超频。

讨论总结

本次讨论主要集中在M40和P40 GPU的性能比较、性价比以及超频潜力上。多数用户认为，尽管M40在性能上比P40慢约25%，但其低廉的价格（80美元）使其在预算有限的情况下成为一个极具吸引力的选择。超频技术的应用进一步提升了M40的性能，使其在某些测试中接近P40。此外，讨论还涉及了冷却和功率管理，以及使用3D打印适配器和软件解决方案来优化GPU的使用。总体而言，讨论呈现出一种实用主义的氛围，强调在预算和性能之间找到平衡点。

主要观点

👍 M40在性价比上优于P40
- 支持理由：M40在eBay上的价格仅为80美元，性价比远超P40。
- 反对声音：M40的性能比P40慢约25%，对于高性能需求的用户可能不够。
🔥 超频可以显著提升M40的性能
- 正方观点：通过MSI Afterburner超频，M40的性能可以接近P40。
- 反方观点：超频可能带来不稳定性和潜在的硬件风险。
💡 M40在处理大型模型时仍是一个可行的选择
- 解释：尽管P40对于大型模型已经不够快，M40在预算有限的情况下仍能满足需求。
🌟 3060 12GB可能是更好的选择
- 解释：考虑到多功能性和8B模型的进步，3060 12GB在某些情况下可能更优。
🚀 P40在提示处理速度上具有优势
- 解释：P40的提示处理速度几乎是M40的两倍，这在许多应用中至关重要。

金句与有趣评论

“😂 ThisWillPass：Love these posts 👍”
- 亮点：表达了对这类技术讨论的喜爱和支持。
“🤔 kiselsa：What do you mean too slow for 70bs? 2x P40 run q4km llama 3 70b at 5-7 t/s.”
- 亮点：对“P40已经太慢”的观点提出质疑，提供了实际测试数据。
“👀 Eisenstein：The P40 is doing prompt processing twice as fast, which is a big deal with a lot use cases.”
- 亮点：强调了P40在提示处理速度上的优势，对许多应用场景至关重要。

情感分析

讨论的总体情感倾向是积极和实用的，多数用户认为M40在预算有限的情况下是一个不错的选择。主要分歧点在于M40和P40的性能比较，以及超频带来的潜在风险。用户普遍对性价比和实用性给予高度评价，而对性能的绝对要求则有所保留。

趋势与预测

新兴话题：未来可能会有更多关于3060 12GB等新型GPU的讨论，以及它们在性价比和性能上的表现。
潜在影响：随着技术的进步和市场的变化，用户可能会更加关注新型GPU的性价比和多功能性，而不仅仅是性能的绝对值。

详细内容：

标题：Reddit 热议：Overclocked M40 24GB 与 P40 的性能大比拼

最近，Reddit 上一篇关于“Overclocked M40 24GB 与 P40（Benchmark Results）”的帖子引起了广泛关注，获得了众多点赞和大量评论。帖子主要探讨了 M40 和 P40 这两款 GPU 的性能对比，并分享了详细的测试数据。

讨论的焦点集中在 M40 的性价比、性能表现、功耗冷却、驱动支持等方面。有人认为 M40 虽然在某些方面稍逊于 P40，但考虑到其只需 80 美元的价格，仍是超值之选。比如，有用户表示：“我感觉大家对 M40 有一种毫无根据的恐惧，虽然它老，但你确实做出了一些牺牲。但只要 80 美元就能让 Gemma 2 27b 达到 12 t/s 的速度。”但也有人觉得 Nvidia P102-100 10GB 性价比更高。

在性能方面，测试数据显示，M40 在不同模型和参数下的速度均低于 P40，但差距在可接受范围内。例如，“Gemma 2 27B @ 8192 上下文（Q4KM），P40 为 12.8 t/s，Overclocked M40 为 9.14 t/s 。”不过，也有人指出 M40 在某些特定情况下，如使用 legacy Quants 时，与 P40 的差距会缩小。

关于功耗和冷却，有人提到 M40 闲置时约 17 瓦，冷却相对容易，可在 eBay 上找到便宜的 3D 打印适配器和风扇。但同时也指出 M40 一旦开始限制功率，性能会下降较快。

对于驱动支持，有人担心 M40 的驱动很快会失去支持，但也有人认为短期内不是大问题，目前驱动仍在更新。比如有用户提到：“我不认为这是个大问题，它不会突然停止工作，而且目前的驱动仍在更新。”

总之，这场讨论展现了大家对 M40 和 P40 优缺点的深入分析和不同看法，也让更多人对这两款 GPU 有了更全面的认识。但关于 M40 的未来表现和价值，仍存在一定的争议和不确定性。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#