我们是一家小公司的3名IT人员,我们搭建了一台Linux服务器,最初使用4块4060 Ti显卡,现在我们有6块(总共96 GB VRAM)
我们可以运行像Llama 3.1 70B和Mistral Large 2这样的大型语言模型,经过量化后我们可以将它们100%放入我们的合并VRAM中
奇怪的是,模型只能达到每秒3.7个令牌的速度。我们已经尝试了llama.cpp和Ollama。正如你在下面的图片中看到的,我们的GPU在生成令牌时只使用了大约20%的计算能力,这表明GPU并没有在接近满负荷的情况下运行:
有人知道这是什么原因吗?
讨论总结
本次讨论主要聚焦于一个小型公司使用GeForce 4060 Ti显卡运行大型语言模型(如Llama 3.1 70B和Mistral Large 2)时遇到的性能问题。尽管拥有96 GB的VRAM,但模型的处理速度仅为3.7 tokens/second,且GPU的计算能力仅使用了约20%。讨论中涉及的主要观点包括内存带宽可能是导致性能瓶颈的原因,建议尝试购买更高性能的显卡,如二手RTX 3090,以提高性能。此外,也有观点指出增加GPU数量并不一定能提高平均速度,因为层是按顺序处理的。总体上,讨论的情感倾向较为技术性和解决问题的导向。
主要观点
- 👍 内存带宽可能是导致性能瓶颈的原因之一
- 支持理由:4060 Ti的内存带宽(约288 GB/s)远低于4090(约1000 GB/s),即使有288 GB/s的带宽,70 GB模型运行速度可能仍然受限。
- 反对声音:理论上的最大处理速度接近实际测得的3.7 tokens/second。
- 🔥 建议尝试购买更高性能的显卡
- 正方观点:购买更高性能的显卡,如二手RTX 3090,以提高性能。
- 反方观点:增加GPU数量并不一定能提高平均速度,因为层是按顺序处理的。
- 💡 问题可能与PCIe lanes不足有关
- 建议升级主板和CPU以增加PCIe lanes,对于LLMs,每张GPU的内存是关键,其次是足够的PCIe 4 lanes和系统内存带宽。
金句与有趣评论
- “😂 I suspect the slow memory bandwidth is part of the reason (~288 GB/s for 4060 ti vs ~1000 GB/s for the 4090).”
- 亮点:直接指出了内存带宽可能是性能瓶颈的关键因素。
- “🤔 yes ..buy better cards with better vram bandwidth … maybe second hand rtx 3090.”
- 亮点:提出了实际的硬件升级建议,具有操作性。
- “👀 If it serves a single request, only one GPU will be active at the same time, because layers are processed sequentially.”
- 亮点:解释了为什么增加GPU数量不一定能提高性能。
情感分析
讨论的总体情感倾向较为技术性和解决问题的导向。主要分歧点在于是否应该通过增加GPU数量来提高性能,以及内存带宽是否是主要的性能瓶颈。可能的原因包括硬件性能限制和系统配置问题。
趋势与预测
- 新兴话题:硬件升级和优化系统配置以提高语言模型运行效率。
- 潜在影响:对小型公司或个人开发者在使用有限资源运行大型语言模型时提供实际的解决方案和优化建议。
感谢您的耐心阅读!来选个表情,或者留个评论吧!