原贴链接

我仍在做一些初步测试,但看起来我手头的科学用例受益于至少量化为q5的大模型。不过由于我现在只有两块1070显卡,所以这一切都在CPU上运行,速度非常慢。所以我一直在想,在GPU上运行这个(模型)最便宜的硬件是什么。每个人都推荐两块3090,但它们‘仅仅’有总共48GB的显存,最重要的是对我来说相当昂贵。所以我一直在想,那么最好的硬件是什么。我研究过P40,它们有时每个只要280美元左右,相当实惠。我的GPU预算是1000美元,如果是长期的事情,也许我可以为一个准系统服务器多花一点钱。然而,每个人都因为速度和(硬件)年代(久远)而不建议使用P40。不过我主要只对运行大模型感兴趣,理想的速度应该大于1T/s,但实际上这似乎相当合理,现在我在CPU上运行的速度是0.19T/s,甚至经常远低于这个速度。我购买2个、3个甚至4个P40的计划是个坏主意吗?再次强调,我优先考虑大模型,但我的速度要求似乎相当适度。运行llama3.1:70b - q5_K_M模型我能期望得到什么样的性能呢?对于这个任务来说,这似乎是一个非常强大的模型。我会把那个服务器放在我的地下室,然后通过40GB的无限带宽(Infiniband)从我的主工作站连接到它,所以噪音不是一个太重要的要求。有没有人有更好的主意,还是说我在硬件(选择)上实际上是正确的?

讨论总结

原帖作者正在进行初步测试,手中科学用例需q5量化大型模型,现有硬件运行慢,预算1000美元买GPU,3090太贵,P40虽便宜但被很多人因其速度和年代不推荐,于是大家纷纷推荐各种硬件,如7900 XTX、Mi100、改装过的2080tis、二手M3 Max 128GB笔记本电脑、Tesla PH402等,同时也深入讨论了P40的优缺点,还有人提出非本地化运行模型的API方案,整体讨论氛围积极,大家各抒己见。

主要观点

  1. 👍 如果P40价格便宜就可选择
    • 支持理由:P40不老且受最新驱动支持,2个P40推理70b模型有一定速度,Llama.cpp在P40上能很好工作
    • 反对声音:P40存在不能运行exllamav2且不能微调等问题,旧的Tesla(M40、P40)速度慢,不比现代的CPU快多少,P40耗电、噪音大且性能不如现代卡
  2. 🔥 AMD 7900XT可能是运行大型模型的较好选择
    • 正方观点:推理速度比3090更快,可以使用torchtune进行微调
    • 反方观点:更贵、微调不便、HIP支持差
  3. 💡 3090/4090能微调、推理更快且软件支持好
    • 解释:相比其他硬件在模型运行的关键能力上表现优秀
  4. 💡 4060ti有一定优势但价格比P40高
    • 解释:从性价比角度考虑,在运行大型模型时4060ti虽有优势但价格是短板
  5. 💡 可以用低价设备为多个P40供电
    • 解释:muxxington分享了自己的成功经验,说明在成本控制上P40有一定优势

金句与有趣评论

  1. “😂 如果P40仍然看起来便宜,那就选择它们。”
    • 亮点:简洁地表达了在价格便宜的前提下可以选择P40这一观点。
  2. “🤔 P40并不真正老旧。”
    • 亮点:针对很多人认为P40因年代问题不适合使用的观点提出反驳。
  3. “👀 你可以用2个P40在推理70b模型时获得大约6 - 7t/s。”
    • 亮点:给出了P40在推理特定模型时的速度数据,为评估P40性能提供依据。
  4. “🤔 They aren’t better than 3090s, but somewhat better than P40s, and street prices for them seem to be very volatile.”
    • 亮点:比较了7900 XTX和3090、P40的关系,并指出其价格波动大的特点。
  5. “👀 I don’t think a 4060 will cut its since it’s only 8gb VRAM but a 4060ti with 16gb would be a very nice option.”
    • 亮点:从VRAM容量的角度分析4060和4060ti在运行大型模型时的适用性。

情感分析

总体情感倾向为中性偏积极。主要分歧点在于P40是否值得购买用于运行大型模型,以及不同硬件在性价比、性能(如推理速度、微调能力等)方面的优劣。产生分歧的原因是大家的需求和预算不同,对硬件的性能要求和侧重点也不一样,比如有些人更注重速度和微调功能,而有些人则更看重价格和VRAM容量。

趋势与预测

  • 新兴话题:非本地化运行模型的API方式可能会引发更多关于本地硬件运行和非本地运行对比的讨论。
  • 潜在影响:如果更多人接受非本地化运行模型的方式,可能会影响硬件市场对运行大型模型硬件的需求,也可能改变相关领域对模型运行方式的选择偏好。

详细内容:

标题:关于运行大型模型的低预算硬件选择的热门讨论

在 Reddit 上,有一个备受关注的帖子引发了热烈讨论,其标题为“ What is the best low budget hardware to run large models? Are P40s worth it?” 该帖子获得了众多点赞和大量评论。

原帖作者表示,目前在做初步测试,手头的科学用例受益于至少 q5 量化的大型模型,但现有的 2x1070 显卡只能在 CPU 上运行,速度极慢。作者预算 1000 美元用于购买 GPU,甚至可以为裸机服务器增加一点预算,正在考虑 P40 显卡,想知道这个计划是否可行。

讨论焦点主要集中在 P40 显卡是否值得选择,以及与其他显卡的对比。有人认为,如果 P40 价格合适就可以选择,自己曾以 90 美元买到 P40,且 P40 不算过时,能被最新驱动完美支持,使用 2 个 P40 进行 70b 模型推理能达到约 6 - 7 T/s。但也有人指出,像 M40、K80 等显卡已经过时且不受最新驱动支持。

有人表示自己买 2 个 P40 花了 200 欧元,认为还是值得的,如果不想选择 3090 往上的显卡,P40 是个不错的选择。还有人提到,使用多个 P40 时,速度提升效果不明显,对于 70B 模型,能达到约 9 tok/sec。

有人建议,如果预算有限,可以考虑 Epyc GPU 服务器,并提供了相关链接https://www.reddit.com/r/LocalLLaMA/comments/1g5528d/poor\\_mans\\_x79\\_motherboard\\_eth79x5/

关于 P40 与其他显卡的比较,有人认为 7900 XTX 价格波动大,Mi100 价格更高。还有人认为 P40 又老又慢,不如选择更新的显卡。但原帖作者表示,新显卡往往 VRAM 不足且价格贵,P40 虽然性能相对较弱,但价格和 VRAM 有优势。

有人分享自己使用 460W HP 服务器 PSU 和挖矿 breakout 板为 4 个 P40 供电的经历,在几个月的高强度使用中,仅两次出现供电不足的情况,通过限制 GPU 解决,对性能影响小,整个设置花费不到 800 欧元。

在争论中,有人推荐 AMD 7900XT 系列显卡,认为其可能是最佳选择。但也有人认为,P40 有完美的 CUDA 支持且更便宜,虽然不能微调但适合推理。

总之,关于运行大型模型的低预算硬件选择,大家各抒己见,讨论热烈。但最终如何选择,还需根据个人需求和预算来决定。