Update from https://www.reddit.com/r/LocalLLaMA/comments/1dxj851/overclocked_3060_12gb_x_4_running/
Thanks for all the input!
Got it now running with a overclock of
1400+ on memory
210+ on core
With a power limit of 100 watt.
On each 3060.
I’m using the newest driver 560.28.03.
With a empty context it runs 24 tokens/s filled it runs 20 tokens/s
With a power limit of 150 on each it runs 27 tokens/s empty and 22 tokens/s filled.
I’m using a own compiled vllm and flashinfer to be able to run it with python 3.12.
And running it with docker:
docker run --name vllm --runtime nvidia --gpus all -v ~/.cache/huggingface:/root/.cache/huggingface --env "HUGGING_FACE_HUB_TOKEN=" -p 8000:8000 --ipc=host vllm/vllm-openai --model hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 --disable-custom-all-reduce --max-model-len 24000 --max-seq-len-to-capture 24000 -tp 4 --max_num_seqs 4 --use-v2-block-manager --gpu-memory-utilization 0.975 --swap-space 4 --enable-chunked-prefill --max_num_batched_tokens 300 --disable-frontend-multiprocessing
This setting is really on the edge of what can be stored in vram with the current version.
It’s pretty fast and awesome with only one caveat.
TTFT (Time To First Token) is quite slow with a filled context about 45 seconds. Has to do with the low chunked-prefill settings however with the current specs even when i set it higher it does show a higher processing speed but it hangs a zero at the end making no difference in my scenario could be a pcie bottleneck or cpu.
Theoretically it would be fixable with a cache like prefix cache only sadly it does not work when truncating.
Hopefully something in the future can help it but still i’m very happy!
讨论总结
本次讨论主要聚焦于高性能计算机硬件,特别是四张超频的3060 12GB显卡的配置和性能。参与者们对这种“家庭酿造”式的硬件设置表示赞赏,讨论了超频对性能的影响、使用的驱动版本、运行速度、以及在Docker中运行时的具体设置。此外,讨论还涉及了购买渠道、主板型号、PCIe通道的使用、功率限制、噪音和温度问题,以及水冷系统的选择。整体上,讨论体现了对个性化和高性能计算机硬件的兴趣和认可,同时也探讨了相关的技术挑战和优化方案。
主要观点
- 👍 对高性能计算机硬件设置的喜爱
- 支持理由:这种“家庭酿造”式的硬件设置体现了个性化和高性能。
- 反对声音:无明显反对声音。
- 🔥 对超频显卡配置的认可
- 正方观点:超频设置能够显著提升显卡性能。
- 反方观点:超频可能带来更高的功耗和散热问题。
- 💡 对模型运行速度和性能的兴趣
- 解释:讨论了模型在不同上下文下的运行速度,以及如何通过技术手段进行优化。
- 👀 对硬件设置的个性化特点的赞赏
- 解释:参与者对这种个性化和高性能的硬件设置表示赞赏。
- 🚀 对购买渠道和成本的关注
- 解释:讨论了购买高性能显卡的渠道,以及新旧硬件的成本差异。
金句与有趣评论
- “😂 Love these home brew setups.”
- 亮点:体现了对个性化和高性能硬件设置的喜爱。
- “🤔 That’s pretty solid! Can you try gptq-marlin as well? It should rip.”
- 亮点:提出了新的技术方案,展示了技术讨论的深度。
- “👀 Nice. Those small MSI cards are the best.”
- 亮点:对MSI显卡的性能表示赞赏。
情感分析
讨论的总体情感倾向是积极的,参与者对高性能计算机硬件和个性化设置表示赞赏。主要分歧点在于超频带来的性能提升与潜在的功耗和散热问题。可能的原因是参与者对技术细节和性能优化的关注。
趋势与预测
- 新兴话题:使用lmdeploy与Awq组合以提高处理速度。
- 潜在影响:对高性能计算机硬件的兴趣可能会推动相关技术和产品的进一步发展。
详细内容:
标题:关于四张超频 3060 12GB 显卡的热门讨论
最近,Reddit 上一则有关四张超频的 3060 12GB 显卡运行 Llama-3.1-70B-Instruct-AWQ-INT4 的帖子引起了广泛关注,获得了众多点赞和大量评论。帖子不仅详细介绍了显卡的设置和性能表现,还引发了网友们的热烈讨论。
讨论焦点主要集中在以下几个方面:
- 一些用户对这种自制的高性能设置表示赞赏,如用户“Additional_Test_758”就称喜欢这种家庭自制的设置。
- 关于不同模型和优化方法的探讨,比如“kryptkpr”建议尝试 gptq-marlin 以提高性能,而“derpyhue”尝试后表示在其案例中效果相似,且提到了 awq 与 marlin 的关系。
- 针对性能瓶颈和解决方案的讨论也十分热烈。例如“desexmachina”询问 GPU 和 CPU 的利用率,“derpyhue”回应了相关情况,包括采用的 PCIe 通道类型以及 CPU 核心的使用情况。
- 在显卡选择和成本方面,“SirCha0s”提出为何选择四张 3060 而不是两张 3090,“CoqueTornado”则从价格和风险角度进行了分析。
有用户分享道:“我尝试了 gptq-marlin,发现它在我的设置中能将每秒生成的令牌数提高约 2 个!”
同时,也有用户指出了存在的问题,比如“derpyhue”提到在使用填充上下文时,TTFT(Time To First Token)较慢,约 45 秒,可能与低分段预填充设置有关,也可能是 PCIe 瓶颈或 CPU 问题。
讨论中的共识在于大家对高性能硬件的追求和探索,以及对优化方法的不断尝试。特别有见地的观点如“Aphrodite-engines 版本的前缀缓存或许能解决相关问题”丰富了讨论内容。
总体而言,这次关于四张超频 3060 12GB 显卡的讨论展现了硬件爱好者们的热情和专业,为广大爱好者提供了宝贵的经验和思路。
感谢您的耐心阅读!来选个表情,或者留个评论吧!