原贴链接

我已经规划一个工作站有一段时间了,现在遇到了一些我认为有经验的人能更好回答的问题。我设想的配置如下: CPU:AMD Threadripper 7965WX GPU:1个4090 + 2 - 3个3090(降压至约200瓦) 主板:Asus Pro WS WRX90E - SAGE 内存:512gb DDR5

这样我将有72gb的显存和512gb的系统内存作为后备。 理想情况下,我想要能够运行Qwen 2.5 - coder 32b和一个较小的模型来进行行内Copilot补全。据我所读到的,Qwen可以在16位量化下轻松地在64gb内存下运行,所以我应该能够将其加载到显存中(我猜),然而也就这样了。我的功耗不能超过2000瓦,所以也没有太多扩展空间。 然后我看到了512gb的M3 ultra mac studio。这台机器看起来很完美,甚至在更大模型上的运行结果也很惊人。然而,我本质上是一个Linux用户,转用Mac让我感觉很不舒服。 所以我该怎么办?Mac是不是不二之选?对于本地构建是否还有我不知道的其他选择? 我在这个领域是个初学者,只在我的4060上运行过较小的模型,但我希望得到你们的一些建议或者一些能让我进一步自学的资源。任何回复都非常感谢!

讨论总结

原帖作者是构建工作站的初学者,提出了一个包含特定CPU、GPU、主板和内存等的工作站构建计划,还提及自己想运行的模型以及面临的功耗限制,同时在自己的构建计划和Mac M3 ultra mac studio之间犹豫。评论者们从不同角度给出了看法,包括硬件配置方面的优化建议、对原帖计划的认可、对模型运行的量化讨论以及从系统层面分析Mac系统对原帖作者的适用性等,讨论氛围比较积极正面。

主要观点

  1. 👍 原帖的工作站设置整体是不错的。
    • 支持理由:未明确提及,可能是综合考虑原帖的配置能满足基本需求。
    • 反对声音:无。
  2. 🔥 若无充分利用7965WX的计划,应把钱更多花在GPU而非CPU上。
    • 正方观点:如果不能充分利用CPU性能,将资金投入到GPU上能提升整体性能。
    • 反方观点:无。
  3. 💡 MacOS基于BSD衍生系统,作为Linux用户使用Mac会有熟悉感。
    • 解释:从系统底层关系和用户体验的角度出发,认为两者存在相似性。
  4. 💡 对原帖中运行Qwen 2.5 - coder 32b采用16位量化表示疑问。
    • 解释:基于一般情况和模型特性考虑,认为正常4位量化较安全。
  5. 💡 建议运行量化后的70B模型并认为其可能会有更好的性能表现。
    • 解释:旨在解决原帖作者在有限功耗下高效运行模型的问题。

金句与有趣评论

  1. “😂 7965wx has 4 ccd. You really want 8 ccd to saturate the ram bandwidth with our contemporary backends.”
    • 亮点:从硬件技术角度指出原帖CPU配置在内存带宽方面的可优化点。
  2. “🤔 MacOS is a window manager over a BSD derivative.”
    • 亮点:阐述了MacOS的系统特性,为原帖作者关于是否选择Mac提供新的思考角度。
  3. “👀 C_Coffie: I believe you’re normally pretty safe at a 4 - bit quant but it really depend on the model.”
    • 亮点:针对模型量化的关键讨论点,给出一般性观点并强调模型差异性。

情感分析

总体情感倾向是积极的。主要分歧点较少,大家基本都在对原帖作者的计划提出建设性意见或表示认可。可能的原因是原帖作者以初学者的姿态诚恳地寻求建议,评论者们也都比较友好地分享自己的经验和看法。

趋势与预测

  • 新兴话题:关于如何在有限功耗下选择更合适的模型以及量化模型的具体操作和效果可能会引发后续讨论。
  • 潜在影响:对其他有类似工作站构建需求或模型运行需求的人在硬件选择、系统选择和模型优化方面有一定的参考价值。

详细内容:

标题:关于本地工作站构建的热烈讨论

在 Reddit 上,有一则关于规划本地工作站的热门帖子引起了大家的广泛关注。帖子中,作者详细介绍了自己的构想,包括 CPU 选用 AMD Threadripper 7965WX,GPU 为 1 个 4090 和 2 - 3 个 3090(降压至约 200w),主板是 Asus Pro WS WRX90E - SAGE,内存 512GB DDR5 等。作者表示,此配置能提供 72GB 的 VRAM 和 512GB 的系统内存,期望能运行 Qwen 2.5 - coder 32b 及较小模型用于内联 copilot 完成。但由于不能超过 2000w 的功耗,扩展空间有限,而且还纠结于 Mac 产品,虽其在某些方面看似完美,但作为 Linux 用户切换到 Mac 让作者不太情愿。该帖子获得了众多点赞和大量评论。

讨论的焦点主要集中在配置的合理性和选择的多样性上。有人认为作者的工作站构想不错,但如果要充分利用系统内存和带宽,建议选择 8 CCD 的处理器,如 7975wx 及以上型号。也有人指出 7975wx 仅有 4 CCD,只有 7985wx 和 7995wx 才有 8 CCD,且价格与 7965wx 有较大差异,8 CCD 能带来约 30%的速度提升。还有用户分享了自己使用类似配置的工作站的经验,如拥有 7965wx、Asus WRX90、512 GB RAM 和 4090 的工作站,运行 DeepSeek 与特定分支的性能表现,并建议给 RAM 配置风扇。

关于操作系统,有人认为 MacOS 作为 BSD 衍生品的窗口管理器,Linux 用户会感到熟悉;也有人提到现代 Mac 的默认 shell 就是 zsh。

在量化方面,有人建议对于 Qwen 2.5 - coder 32b 不要只考虑 16 位量化,还提供了相关链接进行参考。有人认为可以运行 70B 模型量化来测试性能。还有人指出,除非打算充分利用 7965WX,否则把钱花在 GPU 上比 CPU 上好,并提到可以选择在 eBay 上购买便宜 CPU 构建基于 TRX40 的东西,或者考虑单个 RTX Pro 6000 等替代方案。

总的来说,讨论中既有对作者构想的肯定,也有基于不同经验和需求提出的优化建议和替代方案,为作者和其他有类似需求的人提供了丰富的参考和思考方向。但最终如何选择,还需作者根据自身情况权衡决定。