原贴链接

分享我的一个本地llama设置(405b),我认为它在性能、成本和功能之间取得了良好的平衡。虽然昂贵,但我相信总价格标签低于(一半?)单个A100的价格。

12 x 3090 GPU。3090的平均成本约为$725 = $8700。

64GB系统内存足以用于推理 = $115。

TB560-BTC Pro 12 GPU挖矿主板 = $112。

4x1300电源 = $776。

12 x pcie转接卡(1x)= $50。

i7英特尔CPU,8核5 GHz = $220。

2TB nvme = $115。

总成本 = $10,088.

以下是系统的运行时功能。我正在使用我自己创建并在此处可用的Llama 3.1的exl2 4.5bpw量化,4.5bpw exl2量化。特别感谢turboderp和Grimulkan在量化方面的帮助。请参阅Grim对之前链接中量化困惑度的分析。

我可以适应50k上下文窗口,并达到基础令牌/秒为3.5。使用Llama 3.1 8B作为推测解码器(spec令牌=3),我看到平均5-6令牌/秒,峰值为7.5令牌/秒。当批量处理多个请求时略有下降。每个卡的空闲功耗约为30W,总空闲功耗为360W。在推理期间,功耗分布在各卡上,通常每卡看到130-160W的功耗。所以可能是推理期间总功耗约为1800W。

对1x pcie的担忧在模型加载期间是合理的。将模型加载到vRAM大约需要10分钟。功耗低于我的预期,64 GB的DDR RAM不是问题..一切都在vRAM中。我的计划是逐步将3090换成4090,以尝试超过10令牌/秒的标记。

这是一张11 gpu设备的图片,我后来添加了第12个,并增加了左侧的电源。

image

讨论总结

本次讨论主要围绕一个高性能的本地llama 3.1 405b设置展开,作者详细分享了其硬件配置、成本分析以及系统运行能力。讨论中涉及了多个技术细节,如GPU选择、推理速度、功耗评估等,同时也探讨了未来升级计划和性能优化策略。总体上,讨论氛围技术性强,参与者对硬件配置和性能优化表现出浓厚兴趣,同时也对成本效益和未来技术发展进行了深入探讨。

主要观点

  1. 👍 硬件配置的详细分享

    • 支持理由:作者详细列出了12块3090 GPU、64GB系统RAM等硬件配置,并计算了总成本约为$10,088。
    • 反对声音:有用户提出使用普通RAM可以降低成本,但性能可能受影响。
  2. 🔥 性能优化的讨论

    • 正方观点:作者分享了系统的运行能力和性能数据,如50k上下文窗口和每秒3.5个基础令牌。
    • 反方观点:有用户质疑4090相对于3090的升级效果,建议监控PCIE带宽以确定瓶颈。
  3. 💡 未来升级计划

    • 解释:作者计划逐步将3090 GPU替换为4090以提高性能,并探讨了可能的性能提升。
  4. 👀 成本效益分析

    • 解释:讨论中多次提到成本与性能的平衡,有用户认为该设置在成本效益上表现良好。
  5. 🚀 技术细节的深入探讨

    • 解释:涉及了模型量化、上下文大小、并行计算等多个技术细节,参与者表现出对技术实现的浓厚兴趣。

金句与有趣评论

  1. “😂 Wow! This is likely the best and most cost effective way to do this! Thank you for sharing 🙏”

    • 亮点:用户对成本效益的高度认可,表达了对分享的感激之情。
  2. “🤔 Have you tried vllm or sglang? Your inference speed will likely double, but also your power draw.”

    • 亮点:提出了提高推理速度的建议,同时也指出了可能增加的功耗问题。
  3. “👀 Is this enough VRAM to flirt with cute wAIfus?”

    • 亮点:以幽默的方式探讨了VRAM的需求,增加了讨论的趣味性。

情感分析

讨论的总体情感倾向积极,参与者对硬件配置和性能优化表现出浓厚兴趣,同时也对成本效益和未来技术发展进行了深入探讨。主要分歧点在于硬件升级的实际效果和可能的瓶颈问题,但整体上,讨论氛围技术性强且充满探索精神。

趋势与预测

  • 新兴话题:硬件升级和性能优化仍将是未来讨论的热点,特别是关于4090 GPU的实际效果和可能的瓶颈问题。
  • 潜在影响:随着技术的不断进步,高性能计算集群的配置和优化将对相关领域产生深远影响,特别是在人工智能和机器学习领域。