原贴链接

我搭建了一个家庭实验室工作站,主要使用二手部件。28核的至强v4处理器+220GB DDR4内存+3个GPU。1060是我手头已有的,我从eBay上又加了两个3090。我使用一个超大机箱,并且为1060配备了PCI - E延长线,看起来有点奇怪,但在标准风冷下运行良好。我的主要大语言模型(LLM)使用场景是:Python编码、Linux bash脚本/命令行帮助、撰写电子邮件(也包括其他主要欧洲语言),然后我还发现LLM可用于语言学习。这些是我目前主要使用GPT 4o做的事情,但我想再尝试一下私有开源的LLM。llama.cpp/gguf仍然是最好的平台吗?还是我应该看看Ollama等?你会推荐我尝试哪些最近的模型呢?

讨论总结

原帖主搭建了包含特定硬件(Xeon v4、220GB DDR4 Ram、2x3090 + 1x1060)的家庭实验室工作站,想在其上尝试私有开源大语言模型用于多种用途,如Python编码等。评论者们主要围绕可在54GB显存下运行的模型、硬件使用建议(如1060可用于嵌入事务)、模型的速度表现(如qwen2.5模型在不同硬件上的速度)、性能比较(如不同GPU组合推理模型的性能)等方面展开讨论,整体氛围和谐,大家积极分享自己的经验和建议😉

主要观点

  1. 👍 推荐qwen2.5:72b - instruct - q5_K_M模型用于54GB显存
    • 支持理由:未提及具体支持理由,但直接推荐。
    • 反对声音:无。
  2. 🔥 若用3块GPU推理一个模型,1060的通信带宽可能是瓶颈并大幅拖慢进程
    • 正方观点:模型前向传递需经过所有GPU,1060通信带宽低。
    • 反方观点:无。
  3. 💡 仅使用3090可能会得到更好的整体结果
    • 解释:1060可能拖慢整体速度,2x3090速度更快,第三块较慢的卡会使3090闲置从而降低性能。
  4. 💡 建议尝试exllamav2来提高速度
    • 解释:有人分享了在使用exllamav2后速度有明显提升,如从5t/s提升到14t/s。
  5. 💡 若需要聊天补全之外的功能可选择llama - cpp - python或者ollama
    • 解释:llama.cpp服务器维护者有功能实现的限制条件。

金句与有趣评论

  1. “😂 Its_Powerful_Bonus: qwen2.5:72b - instruct - q5_K_M 54 GB”
    • 亮点:简洁明了地推荐了适合54GB显存的模型。
  2. “🤔 SheffyP: I use the qwen2.5 72B q4 on 2 3090ti at 47.5gb and get ~18t/s..it is good enough to replace 90% of my got requests. Absolutely amazing.”
    • 亮点:分享了qwen2.5模型在特定硬件上的实际速度和使用效果。
  3. “👀 jrherita:I didn’t realize you could use unequal GPUs for these models to share the VRAM? Pretty cool!”
    • 亮点:表达了对不同GPU共享VRAM这种做法的惊讶和赞赏。
  4. “😎 Dundell:I limit my p40s and p102 - 100’s to 140w’s each. You can try that to limit power down”
    • 亮点:分享了对特定GPU的功率限制方法。
  5. “🤓 ortegaalfredo: With 2x3090s alone, qwen - 72B - Instruct - awq and sglang/vllm you will get about 16 t/s and 20k context, enough for almost anything that gpt - 4o can do.”
    • 亮点:提供了仅使用2个3090时可尝试的模型及其性能表现。

情感分析

总体情感倾向积极。主要分歧点较少,大部分评论者都在积极分享自己的经验和建议,可能的原因是原帖主的提问比较明确,大家都围绕如何在特定硬件上更好地运行开源LLM这个话题进行交流,没有产生太多争议性的观点🧐

趋势与预测

  • 新兴话题:对nvlink性能提升的进一步探讨,可能会有更多人分享nvlink在不同场景下的实际使用效果。
  • 潜在影响:对于硬件配置类似的用户在选择运行模型的方式、硬件使用策略以及模型选择上有一定的参考价值,可能会促使更多人尝试开源LLM并优化自己的设置。

详细内容:

标题:探索 54GB VRAM 下的最佳模型运行选择

最近,Reddit 上有一个热门讨论引起了大家的关注,一位用户分享了自己搭建的家庭实验室工作站,配置包括 Xeon v4 28 核、220GB DDR4 内存和 3 块 GPU(2 块 3090 和 1 块 1060),并询问在 54GB VRAM 下运行的最佳模型选择。该帖子获得了众多关注,评论数众多。主要的讨论方向集中在不同模型的性能表现、硬件配置对运行效果的影响等。

讨论焦点与观点分析: 有人推荐 qwen2.5:72b-instruct-q5_K_M 模型,并表示其在 54GB VRAM 下表现不错。有人使用 qwen2.5 72B q4 在 2 块 3090ti 上能达到约 18t/s 的速度,认为足以替代大部分需求。还有人建议尝试 exllamav2,称其可能带来显著的速度提升。有人使用 Ollama,认为只需 48GB 并建议舍弃 1060。有人提到 llama.cpp 服务器维护者对于某些功能实现的态度。有人分享了使用不同 GPU 组合的个人经历,如使用 3060、p40 和 2 块 p102-100 等,并提供了相关的链接。有人对 p102-100 刷到 10GB 表示好奇。对于使用不均等的 GPU 来共享 VRAM,有人表示很酷。有人询问能连接多块 GPU 的主板型号。还有人详细阐述了在不同情况下模型的运行速度、带宽影响以及各种优化策略等。 比如,有人指出在 4 位格式(q4)下在两块 3090 上运行 70B 参数模型,速度可达约 15 令牌/秒,适用于文本对话。但使用较低格式可能影响编码任务结果。有人认为仅使用 3090 会获得更好的结果,除非需要的模型不适合 48GB VRAM 而适合 54GB。有人分享在 2 块 3090 和 3060 的组合下的情况,提到了限速和张量并行性的问题。也有人解释了 1060 作为瓶颈对速度影响不大的原因。有人提到在训练和推理中,PCIe 通道的作用不同。还有人提到如今大规模的 LLM 训练中 GPU 的使用情况以及并行化方式。有人表示仅用 2 块 3090,qwen-72B-Instruct-awq 和 sglang/vllm 就能达到约 16 t/s 和 20k 上下文,足够满足大多数需求。

总的来说,这次讨论为有类似硬件配置和需求的用户提供了丰富的参考和建议。