本地llama 3.1 405b设置

原贴链接

分享我的一个本地llama设置（405b），我认为它在性能、成本和功能之间取得了良好的平衡。虽然昂贵，但我相信总价格标签低于（一半？）单个A100的价格。

12 x 3090 GPU。3090的平均成本约为$725 = $8700。

64GB系统内存足以用于推理 = $115。

TB560-BTC Pro 12 GPU挖矿主板 = $112。

4x1300电源 = $776。

12 x pcie转接卡（1x）= $50。

i7英特尔CPU，8核5 GHz = $220。

2TB nvme = $115。

总成本 = $10,088.

以下是系统的运行时功能。我正在使用我自己创建并在此处可用的Llama 3.1的exl2 4.5bpw量化，4.5bpw exl2量化。特别感谢turboderp和Grimulkan在量化方面的帮助。请参阅Grim对之前链接中量化困惑度的分析。

我可以适应50k上下文窗口，并达到基础令牌/秒为3.5。使用Llama 3.1 8B作为推测解码器（spec令牌=3），我看到平均5-6令牌/秒，峰值为7.5令牌/秒。当批量处理多个请求时略有下降。每个卡的空闲功耗约为30W，总空闲功耗为360W。在推理期间，功耗分布在各卡上，通常每卡看到130-160W的功耗。所以可能是推理期间总功耗约为1800W。

对1x pcie的担忧在模型加载期间是合理的。将模型加载到vRAM大约需要10分钟。功耗低于我的预期，64 GB的DDR RAM不是问题..一切都在vRAM中。我的计划是逐步将3090换成4090，以尝试超过10令牌/秒的标记。

这是一张11 gpu设备的图片，我后来添加了第12个，并增加了左侧的电源。

讨论总结

本次讨论主要围绕一个高性能的本地llama 3.1 405b设置展开，作者详细分享了其硬件配置、成本分析以及系统运行能力。讨论中涉及了多个技术细节，如GPU选择、推理速度、功耗评估等，同时也探讨了未来升级计划和性能优化策略。总体上，讨论氛围技术性强，参与者对硬件配置和性能优化表现出浓厚兴趣，同时也对成本效益和未来技术发展进行了深入探讨。

主要观点

👍 硬件配置的详细分享
- 支持理由：作者详细列出了12块3090 GPU、64GB系统RAM等硬件配置，并计算了总成本约为$10,088。
- 反对声音：有用户提出使用普通RAM可以降低成本，但性能可能受影响。
🔥 性能优化的讨论
- 正方观点：作者分享了系统的运行能力和性能数据，如50k上下文窗口和每秒3.5个基础令牌。
- 反方观点：有用户质疑4090相对于3090的升级效果，建议监控PCIE带宽以确定瓶颈。
💡 未来升级计划
- 解释：作者计划逐步将3090 GPU替换为4090以提高性能，并探讨了可能的性能提升。
👀 成本效益分析
- 解释：讨论中多次提到成本与性能的平衡，有用户认为该设置在成本效益上表现良好。
🚀 技术细节的深入探讨
- 解释：涉及了模型量化、上下文大小、并行计算等多个技术细节，参与者表现出对技术实现的浓厚兴趣。

金句与有趣评论

“😂 Wow! This is likely the best and most cost effective way to do this! Thank you for sharing 🙏”
- 亮点：用户对成本效益的高度认可，表达了对分享的感激之情。
“🤔 Have you tried vllm or sglang? Your inference speed will likely double, but also your power draw.”
- 亮点：提出了提高推理速度的建议，同时也指出了可能增加的功耗问题。
“👀 Is this enough VRAM to flirt with cute wAIfus?”
- 亮点：以幽默的方式探讨了VRAM的需求，增加了讨论的趣味性。

情感分析

讨论的总体情感倾向积极，参与者对硬件配置和性能优化表现出浓厚兴趣，同时也对成本效益和未来技术发展进行了深入探讨。主要分歧点在于硬件升级的实际效果和可能的瓶颈问题，但整体上，讨论氛围技术性强且充满探索精神。

趋势与预测

新兴话题：硬件升级和性能优化仍将是未来讨论的热点，特别是关于4090 GPU的实际效果和可能的瓶颈问题。
潜在影响：随着技术的不断进步，高性能计算集群的配置和优化将对相关领域产生深远影响，特别是在人工智能和机器学习领域。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测