在本次基准测试中，我们通过Ollama在SaladCloud的9种不同RTX GPU上评估了Llama 3.1 8B的吞吐量和成本效益。

基准测试设计

使用Grafana Labs的负载测试工具k6进行基准测试，在大约1小时内模拟从10到35个虚拟用户逐渐增加的负载。每个虚拟用户要求模型编写一份最多1024个输出令牌的沙拉食谱。[查看GitHub中的准确配置](https://github.com/SaladTechnologies/salad-recipes/blob/master/src/ollama-llama3.1/benchmark/not - streaming.js)。测试环境由多个容器组组成，最多有8 - 10个副本（最常见的是运行9个副本）。我们在SaladCloud上部署了“[Ollama Llama 3.1](https://docs.salad.com/products/recipes/ollama - llama3.1)”配方，使用默认配置，但将优先级设置为“batch”，并请求10个副本。

结果

RTX 3090表现突出，达到了最佳的每令牌成本，并且在峰值负载时吞吐量非常高。
RTX 3090和RTX 4090之间的性能差异很小。
RTX 3060表现相当不错，但成本效益略低于3090。
35个虚拟用户实现了最佳吞吐量。

以下结果显示最佳吞吐量配置（35个虚拟用户）。

RTX 3060（12 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.10美元）

平均响应时间：14.70秒
平均吞吐量：983.29令牌/秒
每100万输出令牌成本：0.2825美元

RTX 3080（10 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.13美元）

平均响应时间：11.32秒
平均吞吐量：1281.55令牌/秒
每100万输出令牌成本：0.2818美元

RTX 3080 TI（12 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.14美元）

平均响应时间：9.74秒
平均吞吐量：1483.34令牌/秒
每100万输出令牌成本：0.2622美元

RTX 3090（24 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.14美元）

平均响应时间：8.50秒
平均吞吐量：1705.92令牌/秒
每100万输出令牌成本：0.2280美元

RTX 3090 TI（24 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.17美元）

平均响应时间：7.73秒
平均吞吐量：1860.15令牌/秒
每100万输出令牌成本：0.2539美元

RTX 4060 TI（16 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.14美元）

平均响应时间：13.23秒
平均吞吐量：1007.33令牌/秒
每100万输出令牌成本：0.3861美元

RTX 4070（12 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.14美元）

平均响应时间：9.41秒
平均吞吐量：1539.99令牌/秒
每100万输出令牌成本：0.2525美元

RTX 4070 TI SUPER（16 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.17美元）

平均响应时间：7.73秒
平均吞吐量：1874.91令牌/秒
每100万输出令牌成本：0.2519美元

RTX 4090（24 GB）| 8个vCPU | 8 GB内存（成本：每节点每小时0.22美元）

平均响应时间：8.12秒
平均吞吐量：1773.30令牌/秒
每100万输出令牌成本：0.3446美元

结论

通过Ollama运行的Llama 3.1 8B在多种设备上表现出稳定的性能，包括低端的上一代GPU。RTX 3090 24GB表现突出，99.983%的请求成功，在35个并发用户的集群中每秒生成超过1700个令牌，每百万输出令牌成本仅为0.228美元。

如需更多详细信息，完整的基准测试在这里：[https://blog.salad.com/llama - 3 - 1 - 8b/](https://blog.salad.com/llama - 3 - 1 - 8b/)

讨论总结

该讨论围绕Llama 3.1 8b在9种不同RTX GPU上的基准测试展开。原帖给出了不同RTX GPU在测试中的表现数据，包括吞吐量、成本效益等。评论中一部分用户对测试结果提出疑问，如特定GPU间性能比较不符合一般认知、Ollama在生产设置中的速度、测试中的副本数量等，也有用户对测试表示认可赞赏。总体氛围以疑问探讨为主。

主要观点

👍 对Llama 3.1 8b在不同GPU上使用其他工具的性能表现表示关注
- 支持理由：希望获取更全面的性能信息
- 反对声音：无
🔥 对测试中一些GPU性能比较结果表示怀疑（如4070 ti super优于4090等）
- 正方观点：结果与一般认知不符
- 反方观点：有用户猜测可能是频率原因，但未完全打消怀疑
💡 认为Ollama在生产设置方面速度不够快
- 理由：虽然易于设置，但在生产方面有更快的选择更好
💡 认可测试很不错且知道测试生成相关内容耗时较长
- 理由：从整体测试工作量角度肯定测试价值
💡 从成本和硬件性能角度分析3080 TI和3090对比结果的合理性
- 理由：二者VRAM差异导致性能表现不同

金句与有趣评论

“😂 Why does the 4070 ti super outperform the 4090? Seems a bit sus”
- 亮点：直接指出测试结果中存在令人怀疑之处
“🤔 How would those cards fare with vllm or mlc?”
- 亮点：提出不同工具下GPU的性能表现问题，拓宽讨论方向
“👀 Ollama is easy to setup but is far from the fastest for a production setup.”
- 亮点：指出Ollama在生产设置方面的不足
“👍 Neat test!”
- 亮点：简洁表达对测试的正面评价
“💡 3080 TI和3090有相同的每小时价格，但VRAM有两倍差异。”
- 亮点：明确指出硬件对比中的关键因素

情感分析

总体情感倾向较为中立。主要分歧点在于对测试结果的信任度，部分用户怀疑部分测试结果的有效性，而有用户认可测试。可能的原因是用户从不同角度看待测试，怀疑者更多关注结果与认知的冲突，认可者更多考虑测试整体的工作量和意义。

趋势与预测

新兴话题：可能会有更多关于其他GPU（如AMD的7900 XTX）在Llama 3.1 8b运行中的性能讨论。
潜在影响：如果更多GPU性能对比结果出现，可能会影响相关用户在选择运行Llama 3.1 8b的硬件设备时的决策。

详细内容：

标题：Llama 3.1 8b 在 9 种不同 RTX GPU 上的基准测试引发热议

在 Reddit 上，有一则关于 Llama 3.1 8b 在 9 种不同 RTX GPU 上的基准测试的帖子引起了广泛关注。该帖子详细介绍了使用 Ollama 在不同 RTX GPU 上的性能和成本效率，获得了众多点赞和大量评论。

这一基准测试通过k6模拟逐渐增加的负载，在SaladCloud上对 9 种不同的 RTX GPU 进行评估。测试结果显示，RTX 3090 表现出色，在成本效益和峰值负载下的吞吐量方面表现最佳。同时，RTX 3090 和 RTX 4090 的性能差异很小，RTX 3060 表现也还不错。

讨论焦点主要集中在一些令人疑惑的结果上。有人提出“为什么 RTX 4070 TI SUPER 会超过 RTX 4090？这似乎有点可疑”，有人认为“这种结果让人对测试的有效性产生了质疑”。还有用户好奇“这些显卡在 vllm 或 mlc 上会表现如何？Ollama 容易设置，但远不是生产环境中最快的”。

有人指出“3080 TI 和 3090 每小时价格相同，但 VRAM 有两倍的差异，3080 TI 表现不佳并不意外”。也有人询问“每个测试分配了多少个副本？知道这个会不会影响结果？”

讨论中的共识在于大家都对测试结果表现出浓厚兴趣，并期待更多相关测试和更详细的解释。特别有见地的观点如对测试有效性的质疑，丰富了讨论的深度。

总的来说，这次基准测试引发了众多思考和讨论，为显卡性能的研究提供了有价值的参考。但仍有许多问题等待进一步的探索和解答。

基准测试设计#

结果#

结论#

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#