在易趣(eBay)上有很多这种配有两颗不错的至强(Xeon)处理器以及128GB 8通道DDR4内存的二手服务器,价格很便宜(至少在英国是这样)。在这些系统上使用非统一内存访问(NUMA)和llama.cpp的话,预计每秒能处理多少个标记(token)呢?
讨论总结
原帖询问在英国eBay上的旧双Xeon服务器使用NUMA和llama.cpp每秒能期望多少令牌。评论者们从不同角度进行了回应,包括分享使用此类服务器的经验,阐述服务器存在的问题如计算受限、内存带宽不足等,还涉及性能评估、硬件要求、成本效益等多方面的讨论,也有部分评论者给出了一些相关的推荐或分享自身类似的经验。
主要观点
- 👍 双Xeon服务器存在诸多性能问题
- 支持理由:如内存频率受DIMM数量限制、v3 CPU计算受限等。
- 反对声音:无。
- 🔥 每秒令牌数取决于硬件和模型
- 正方观点:不同硬件和模型下性能不同,如不同通道DDR4理论带宽、不同模型量化后的理论最大值不同。
- 反方观点:无。
- 💡 旧系统扩充内存成本低
- 解释:虽然旧系统性能不佳,但扩充内存便宜。
- 💡 构建双至强服务器用于LLM推理有特定要求且成本高
- 解释:需要特定版本至强支持AVX2指令集等,花费超1000英镑不如买新PC。
- 💡 原帖对于10亿参数模型的提问不是新问题
- 解释:2023年LLaMA被泄露时就已存在。
金句与有趣评论
- “😂 kryptkpr: Tldr: they’re slow.”
- 亮点:简洁地总结了双Xeon服务器速度慢的特点。
- “🤔 It depends on hardware and model you use.”
- 亮点:点明影响每秒令牌数的关键因素。
- “👀 latest llama.cpp running on Dell T7910 with dual Xeon E5 - 2660v3, all eight memory channels filled with DDR4 - 2133:”
- 亮点:详细给出了在特定服务器上运行llama.cpp的情况。
- “😉 Google "epyc 7763 es", that’s what you need (8 channel ddr4 - 3200)”
- 亮点:直接推荐了另一种可能的选择。
- “🤨 One conclusion was that you would need to find a dual Xeon version of this PC, and carefully ensure the Xeon version was a later one that supported the AVX2 instruction set.”
- 亮点:阐述了构建双至强服务器用于LLM推理的关键要求。
情感分析
总体情感倾向较为中性客观,主要分歧点较少。评论者大多基于自身技术经验和知识在探讨旧双Xeon服务器用于LLM推理的相关问题,如性能、成本等,没有明显的情绪化表达,主要是在理性地交流信息。
趋势与预测
- 新兴话题:可能会进一步探讨不同硬件对于LLM推理的性价比。
- 潜在影响:有助于人们在选择用于LLM推理的硬件设备时,更加全面地考虑性能、成本等多方面因素。
详细内容:
标题:旧款双至强服务器用于 LLM 推理的性能探讨
在 Reddit 上,有一个关于“Old dual xeon servers for llm inference?”的热门讨论。此帖提到在 eBay 上有许多配备两颗不错的至强处理器和 128GB 8 通道 DDR4 内存的二手服务器,价格相对便宜(至少在英国是这样),并询问在这些系统上使用 NUMA 和 llama.cpp 时每秒能处理多少令牌。该帖获得了众多关注,引发了热烈的讨论。
讨论焦点与观点分析: 有人分享自己拥有一台戴尔 R730 服务器,指出了其存在的问题,如内存频率限制、计算能力受限以及 NUMA 带来的性能影响,认为这类服务器速度慢,甚至打算用 EPYC 7532 来替换。有人好奇计算受限的程度,也有人询问如何测量内存带宽。还有人探讨了 EPYC 服务器的内存插槽和通道情况。
有人指出理论上 8 通道 DDR4 的典型带宽为 150 - 200GB/s,并基于不同模型和硬件分析了性能。也有人提到在惠普的双至强服务器/工作站电脑中,至强可直接与内存通信,或许能提升性能,但有人认为瓶颈在于内存带宽,这无法改善,只能尽量接近理论最大值。
ttkciar 分享了戴尔 T7910 服务器的实测数据,表明性能不佳但价格便宜。762mm_Labradors 分享了使用戴尔 Precision T7920 的个人经历。
讨论中的共识在于这类旧款双至强服务器的性能存在诸多限制。特别有见地的观点如有人对理论带宽和实际性能的深入分析,丰富了讨论。
总的来说,对于旧款双至强服务器用于 LLM 推理的性能,大家看法不一,但普遍认为存在较多限制和挑战。
感谢您的耐心阅读!来选个表情,或者留个评论吧!