原贴链接

本地托管的一种流行配置是2个24GB的GPU（例如3090）。这让我能够使用Llama3.3 Q4，我经常使用它。为了进一步扩展，要么添加更多消费级GPU，这在标准台式机或机架式机箱中会很棘手，要么切换到工作站/服务器GPU，这样可以更高效地组合。对于即将真正开始深入微调模型，但还不太理解何时使用QLoRA/LoRA/FFT以及开始使用更大提示的人来说，我很好奇是否值得（或有必要）更进一步，将自己的设备设置为96GB或更多。我的一些目标包括：*代码/数据生成 - 根据提示生成具有特定语法（类似xml）的文档。*特定领域的问答。*创建独特对话的角色。虽然我打算启动2个3090和2个A6000的实例亲自体验，但我非常有兴趣听听有经验的人的看法。

讨论总结

原帖探讨在进行模型微调时选择48GB还是96GB VRAM，评论者从多个角度进行了讨论。涉及资金成本、设备性能、不同VRAM容量下的模型操作（如推理、微调等）、硬件需求（电源、散热等）、租用GPU的性价比等方面，整体氛围是基于技术层面的理性交流。

主要观点

👍 从资金成本考虑，2x3090设备比A6000更划算
- 支持理由：构建2x3090设备的资金少于单个A6000。
- 反对声音：无。
🔥 3090设备处理70b q4任务时能力有限
- 正方观点：3090设备在处理70b q4任务时，存在能力不足的情况。
- 反方观点：无。
💡 48GB VRAM相比于96GB VRAM需要更多地权衡参数
- 解释：在使用qlora fsdp和70B模型时，96GB VRAM下有一定参数限制，48GB时需要更多权衡。
💡 在一定规模下，租用GPU更划算
- 解释：在达到一定规模时，租用GPU成本低于构建设备，直到租用花费超过构建4x5090设备成本时应构建自己的设备。
💡 96GB VRAM推荐搭配512GB RAM来辅助模型加载等操作
- 解释：有助于解决模型加载和内存高峰等问题。

金句与有趣评论

“😂 kryptkpr：The dollars dont make sense imo, you can build an entire 2x3090 rig for less than a single A6000. Rent an H100 for a few dollars an hour if you ever find the need to finetune a 70B.”
- 亮点：直观地比较了2x3090设备和A6000的资金成本，并给出70B微调时租用H100的建议。
“🤔 getmevodka：this. plus thing is yes the two 3090 let you access the 3.3 70b q4 but barely and with not much of context at that….”
- 亮点：指出3090设备在处理70b q4任务时的局限。
“👀 lolzinventor：With 96GB qlora fsdp and 70B models you are already limited to a max tokens in input sequence of about 2K with a LoRA rank of 1024.”
- 亮点：阐述96GB VRAM下特定模型和参数的限制。

情感分析

总体情感倾向为中性。主要分歧点在于96GB VRAM是否有必要，原因是不同用户基于自身的使用场景、资金状况、技术理解等因素有不同的看法。例如从成本角度，有人认为租用更划算；从技术角度，有人指出96GB VRAM在特定模型操作中有优势。

趋势与预测

新兴话题：显存合并概念以及大众对不同显存容量显卡选择的原因可能会引发后续讨论。
潜在影响：对于从事模型微调相关工作的人员，在选择VRAM容量、设备以及资源配置方面有一定的参考意义，有助于优化成本和提高工作效率。

详细内容：

标题：关于 VRAM 容量选择在模型微调中的热门讨论

在 Reddit 上，一则有关“48gb vs 96gb VRAM 用于模型微调”的帖子引发了众多关注，收获了大量点赞和评论。原帖中，作者提到本地托管的常见配置是 2x 24gb GPU（例如 3090），能使用 LLama3.3 Q4，但对于即将深入模型微调且尚未完全掌握相关技术，又有特定使用需求的自己，好奇是否有必要配备 96gb 或更大容量的 VRAM。

讨论的焦点主要集中在以下几个方面：

有人认为从成本角度看，构建 2x 3090 设备比单个 A6000 更划算。比如，有用户说：“The dollars dont make sense imo, you can build an entire 2x3090 rig for less than a single A6000. Rent an H100 for a few dollars an hour if you ever find the need to finetune a 70B.”
有用户指出 2x 3090 在某些方面的局限性，比如“yes the two 3090 let you access the 3.3 70b q4 but barely and with not much of context at that….”
还有用户分享了自己在模型微调中的经验，“I was squeezing 16 or 32k in 5bpw models with EXL2 70b. Newer llama got fatter, but you should still get the 16. Inference of course and not finetune.”

同时，也有用户提出一些实用的建议和观点：

比如，“With 96GB qlora fsdp and 70B models you are already limited to a max tokens in input sequence of about 2K with a LoRA rank of 1024. You can trade these parameters off against each other longer context for lower rank etc.”
有人询问关于确定最大输入序列长度的通用规则以及 VRAM 需求，“Is there a good general rule for figuring out the max input sequence length given number of parameters and rank?”

讨论中的共识在于大家都在积极探讨如何根据自身需求和条件，选择合适的 VRAM 配置。

特别有见地的观点如，强调在训练中除了 VRAM 容量，内存容量也很重要，“For 96GB VRAM I’d recommend 512GB RAM as this helps with model loading and other RAM peaks, such as the one I see at the end of training.”

然而，也存在一些有趣或引发思考的观点，比如“ I’m completely out of the loop on ML - since when can VRAM be merged like that? Why are people happy about 32 GB 5090 if they could just use two 16 GB cards instead?” 这让讨论更加丰富多元。

总之，这次关于 VRAM 容量选择的讨论，为有相关需求的人们提供了多方面的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#