原贴链接

自从我添加了第二块3090显卡来运行Llama 3.x 70B，并通过TabbyAPI、litellm、open - webui完成所有设置后，我惊讶于这个设置的响应速度之快和使用的趣味性，但我不禁觉得自己离完美只差一步之遥，却尚未达到。我无法在48GB内存下以6.0bpw的速度加载Llama 3.3 70B（无论上下文如何），但我很想尝试用它来解决编程问题。在4.65bpw的情况下，我只能使用大约20k的上下文，这与该模型的131072的最大值以及Claude宣称的200k相差甚远。为了不在上下文或量化方面做出妥协，至少需要105GB的显存，也就是4块3090。我是在愚蠢地追求递减收益，还是其他拥有两块24GB显存卡的人也有同样的感受呢？我觉得当我只有一块显卡和我的Mac时更开心，那时我接受本地（运行）有利于隐私，但在可用性方面不足以与托管（服务）竞争。现在我看到本地（运行）在各方面都好得多，但我仍然缺少硬件。

讨论总结

原帖作者分享了使用2张3090显卡运行Llama 3.x 70B程序时的体验，感觉接近理想状态但仍有欠缺。评论者们主要围绕3090显卡展开了多方面的讨论，包括硬件配置（如不同的3090组合、机箱容纳能力等）、硬件升级（如添加A4000显卡等）、硬件在不同地区的购买情况、3090的价格走势等，还涉及到模型选择方面，如推荐不同的模型来弥补硬件不足或者提升运行效果等，整个讨论氛围比较技术向，大家都在积极分享自己的经验和见解。

主要观点

👍 拥有多张3090显卡仍感觉硬件资源不足
- 支持理由：如运行Llama 3.x 70B程序时存在如显存不够等问题，不同的使用场景对硬件要求很高。
- 反对声音：无。
🔥 不要局限于单个模型，30 - 40B范围存在不错的模型
- 正方观点：单个模型可能存在局限，多模型组合可提升本地设置的效果。
- 反方观点：无。
💡 2x3090使用后有不足之感，添加A4000可获得更多选择
- 解释：A4000显卡的16GB显存能带来额外的选择，尽管参与运算时速度会降低。
💡 3090 blower价格过高
- 解释：相比普通3/4槽的3090，其价格接近两倍。
💡 购买更多GPU以提升大型模型响应效果性价比低
- 解释：昂贵的GPU成本与得到的响应提升不成正比。

金句与有趣评论

“我有4x3090，我仍然觉得不够。😀欢迎来到这个无底洞。”
- 亮点：以一种幽默的方式表达出对硬件资源永远不够的感受。
“如果您选择双插槽（例如Inno3D或华硕/技嘉涡轮），您可以在4U机箱中放置8个（有一定间距）。”
- 亮点：提供了关于硬件配置的具体实用信息。
“Don’t get stuck with a single model.”
- 亮点：简洁地表达了在模型选择上不要局限的观点。
“ciprianveg: When using also A4000 the speed decreases 35% cca. But the speed is about 20 tokens/s. Very good for my needs. And this keeping power limited to 70% on gpus.”
- 亮点：详细说明了A4000参与运算时的速度、功耗等情况。
“You’ll always seek more, everyone would, but I’d say you’re pretty good right now.”
- 亮点：从一个比较理性的角度看待人们对硬件资源不断追求的心态。

情感分析

总体情感倾向为中性，大家主要是在技术层面进行交流探讨。主要分歧点在于对硬件资源不足是继续投入购买更多硬件来解决，还是通过选择其他模型等方式来弥补。产生这种分歧的原因可能是大家的预算、使用需求以及对性价比的考量不同。

趋势与预测

新兴话题：A6000s可能作为一种新的硬件选择被更多讨论。
潜在影响：对于相关程序（如Llama等）的本地运行发展可能会促使硬件厂商考虑推出更适合的产品或者调整价格策略，也会影响使用者在硬件投入和模型选择上的决策。

详细内容：

标题：关于配置多张 3090 显卡运行模型的热门讨论

在 Reddit 上，一则关于配置多张 3090 显卡来运行诸如 Llama 3.x 70B 等模型的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。原帖作者在拥有两张 3090 显卡并进行一系列设置后，虽对现有配置感到惊喜，但仍觉得离理想状态尚有差距，认为至少需要 105GB VRAM，也就是四张 3090 显卡。

讨论焦点与观点分析：

有人表示拥有四张 3090 显卡仍觉得不够。
- 有人提到通过采用双插槽显卡，在 4U 机箱中可以实现更多显卡的配置。
- 有人认为可以构建多节点的显卡配置，以达到更高的 VRAM 容量。
关于不同模型的选择和使用：
- 有人指出不要局限于单一模型，介绍了如 Qwen Coder 32B 等多个在 VRAM 消耗方面表现出色的模型。
- 有人分享了对不同模型的使用体验，包括对其性能、风格和适用场景的看法。
个人配置和经验分享：
- 有人在拥有两张 3090 显卡的基础上，添加了 A4000 16GB 显卡，获得了更多的 VRAM 选项。
- 有人在寻找低价的 3090 显卡时遇到困难。
- 有人详细介绍了自己从配置两张 3090 显卡到考虑更多升级方案的过程，包括对各种显卡型号的性能、价格、散热等方面的考量。

在这场讨论中，共识在于大家都在追求更强大的硬件配置以满足对模型运行的需求，但对于具体的配置方案和模型选择存在不同的看法。一些特别有见地的观点，如根据实际需求合理选择模型，避免盲目追求最高配置，丰富了讨论的内容。

总之，这场关于显卡配置的讨论充分展示了大家对于提升模型运行性能的探索和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#