原贴链接

在本次基准测试中,我们通过Ollama在SaladCloud的9种不同RTX GPU上评估了Llama 3.1 8B的吞吐量和成本效益。

基准测试设计

使用Grafana Labs的负载测试工具k6进行基准测试,在大约1小时内模拟从10到35个虚拟用户逐渐增加的负载。每个虚拟用户要求模型编写一份最多1024个输出令牌的沙拉食谱。[查看GitHub中的准确配置](https://github.com/SaladTechnologies/salad-recipes/blob/master/src/ollama-llama3.1/benchmark/not - streaming.js)。测试环境由多个容器组组成,最多有8 - 10个副本(最常见的是运行9个副本)。我们在SaladCloud上部署了“[Ollama Llama 3.1](https://docs.salad.com/products/recipes/ollama - llama3.1)”配方,使用默认配置,但将优先级设置为“batch”,并请求10个副本。

结果

  • RTX 3090表现突出,达到了最佳的每令牌成本,并且在峰值负载时吞吐量非常高。
  • RTX 3090和RTX 4090之间的性能差异很小。
  • RTX 3060表现相当不错,但成本效益略低于3090。
  • 35个虚拟用户实现了最佳吞吐量。

以下结果显示最佳吞吐量配置(35个虚拟用户)。

RTX 3060(12 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.10美元)

  • 平均响应时间:14.70秒
  • 平均吞吐量:983.29令牌/秒
  • 每100万输出令牌成本:0.2825美元

RTX 3080(10 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.13美元)

  • 平均响应时间:11.32秒
  • 平均吞吐量:1281.55令牌/秒
  • 每100万输出令牌成本:0.2818美元

RTX 3080 TI(12 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.14美元)

  • 平均响应时间:9.74秒
  • 平均吞吐量:1483.34令牌/秒
  • 每100万输出令牌成本:0.2622美元

RTX 3090(24 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.14美元)

  • 平均响应时间:8.50秒
  • 平均吞吐量:1705.92令牌/秒
  • 每100万输出令牌成本:0.2280美元

RTX 3090 TI(24 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.17美元)

  • 平均响应时间:7.73秒
  • 平均吞吐量:1860.15令牌/秒
  • 每100万输出令牌成本:0.2539美元

RTX 4060 TI(16 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.14美元)

  • 平均响应时间:13.23秒
  • 平均吞吐量:1007.33令牌/秒
  • 每100万输出令牌成本:0.3861美元

RTX 4070(12 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.14美元)

  • 平均响应时间:9.41秒
  • 平均吞吐量:1539.99令牌/秒
  • 每100万输出令牌成本:0.2525美元

RTX 4070 TI SUPER(16 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.17美元)

  • 平均响应时间:7.73秒
  • 平均吞吐量:1874.91令牌/秒
  • 每100万输出令牌成本:0.2519美元

RTX 4090(24 GB)| 8个vCPU | 8 GB内存(成本:每节点每小时0.22美元)

  • 平均响应时间:8.12秒
  • 平均吞吐量:1773.30令牌/秒
  • 每100万输出令牌成本:0.3446美元

结论

通过Ollama运行的Llama 3.1 8B在多种设备上表现出稳定的性能,包括低端的上一代GPU。RTX 3090 24GB表现突出,99.983%的请求成功,在35个并发用户的集群中每秒生成超过1700个令牌,每百万输出令牌成本仅为0.228美元

如需更多详细信息,完整的基准测试在这里:[https://blog.salad.com/llama - 3 - 1 - 8b/](https://blog.salad.com/llama - 3 - 1 - 8b/)

讨论总结

该讨论围绕Llama 3.1 8b在9种不同RTX GPU上的基准测试展开。原帖给出了不同RTX GPU在测试中的表现数据,包括吞吐量、成本效益等。评论中一部分用户对测试结果提出疑问,如特定GPU间性能比较不符合一般认知、Ollama在生产设置中的速度、测试中的副本数量等,也有用户对测试表示认可赞赏。总体氛围以疑问探讨为主。

主要观点

  1. 👍 对Llama 3.1 8b在不同GPU上使用其他工具的性能表现表示关注
    • 支持理由:希望获取更全面的性能信息
    • 反对声音:无
  2. 🔥 对测试中一些GPU性能比较结果表示怀疑(如4070 ti super优于4090等)
    • 正方观点:结果与一般认知不符
    • 反方观点:有用户猜测可能是频率原因,但未完全打消怀疑
  3. 💡 认为Ollama在生产设置方面速度不够快
    • 理由:虽然易于设置,但在生产方面有更快的选择更好
  4. 💡 认可测试很不错且知道测试生成相关内容耗时较长
    • 理由:从整体测试工作量角度肯定测试价值
  5. 💡 从成本和硬件性能角度分析3080 TI和3090对比结果的合理性
    • 理由:二者VRAM差异导致性能表现不同

金句与有趣评论

  1. “😂 Why does the 4070 ti super outperform the 4090? Seems a bit sus”
    • 亮点:直接指出测试结果中存在令人怀疑之处
  2. “🤔 How would those cards fare with vllm or mlc?”
    • 亮点:提出不同工具下GPU的性能表现问题,拓宽讨论方向
  3. “👀 Ollama is easy to setup but is far from the fastest for a production setup.”
    • 亮点:指出Ollama在生产设置方面的不足
  4. “👍 Neat test!”
    • 亮点:简洁表达对测试的正面评价
  5. “💡 3080 TI和3090有相同的每小时价格,但VRAM有两倍差异。”
    • 亮点:明确指出硬件对比中的关键因素

情感分析

总体情感倾向较为中立。主要分歧点在于对测试结果的信任度,部分用户怀疑部分测试结果的有效性,而有用户认可测试。可能的原因是用户从不同角度看待测试,怀疑者更多关注结果与认知的冲突,认可者更多考虑测试整体的工作量和意义。

趋势与预测

  • 新兴话题:可能会有更多关于其他GPU(如AMD的7900 XTX)在Llama 3.1 8b运行中的性能讨论。
  • 潜在影响:如果更多GPU性能对比结果出现,可能会影响相关用户在选择运行Llama 3.1 8b的硬件设备时的决策。

详细内容:

标题:Llama 3.1 8b 在 9 种不同 RTX GPU 上的基准测试引发热议

在 Reddit 上,有一则关于 Llama 3.1 8b 在 9 种不同 RTX GPU 上的基准测试的帖子引起了广泛关注。该帖子详细介绍了使用 Ollama 在不同 RTX GPU 上的性能和成本效率,获得了众多点赞和大量评论。

这一基准测试通过k6模拟逐渐增加的负载,在SaladCloud上对 9 种不同的 RTX GPU 进行评估。测试结果显示,RTX 3090 表现出色,在成本效益和峰值负载下的吞吐量方面表现最佳。同时,RTX 3090 和 RTX 4090 的性能差异很小,RTX 3060 表现也还不错。

讨论焦点主要集中在一些令人疑惑的结果上。有人提出“为什么 RTX 4070 TI SUPER 会超过 RTX 4090?这似乎有点可疑”,有人认为“这种结果让人对测试的有效性产生了质疑”。还有用户好奇“这些显卡在 vllm 或 mlc 上会表现如何?Ollama 容易设置,但远不是生产环境中最快的”。

有人指出“3080 TI 和 3090 每小时价格相同,但 VRAM 有两倍的差异,3080 TI 表现不佳并不意外”。也有人询问“每个测试分配了多少个副本?知道这个会不会影响结果?”

讨论中的共识在于大家都对测试结果表现出浓厚兴趣,并期待更多相关测试和更详细的解释。特别有见地的观点如对测试有效性的质疑,丰富了讨论的深度。

总的来说,这次基准测试引发了众多思考和讨论,为显卡性能的研究提供了有价值的参考。但仍有许多问题等待进一步的探索和解答。