原贴链接

针对17个本地大语言模型（包括新的Gemma3模型）计算了每瓦时的令牌数和每美分的令牌数。在相似条件和提示下测量每次运行的壁插电源功率。估计的表格、图表和公式见：https://github.com/QuantiusBenignus/Zshelf/discussions/2。平均而言，消费级硬件和本地大语言模型平均量化到Q5。

讨论总结

原帖给出了17种本地LLMs的Tokens/WattHour和Tokens/US cent的计算结果，包括新的Gemma3模型。评论者从多个方面进行了讨论，如硬件的选择和性能（如3090与3060的比较）、性价比、成本计算与比较（包括API调用成本）、电力消耗的测量和计算（是否考虑系统空闲状态等），整体氛围是积极的技术交流，大家都在探讨如何更好地衡量本地LLMs的电力消耗和成本。

主要观点

👍 原帖应确切指定GPU模型
- 支持理由：不同GPU模型效率不同，确切指定有助于准确对比。
- 反对声音：无。
🔥 3090在特定功率限制下每秒产生的token数是两个125W的3060的2倍以上
- 正方观点：这体现了3090的性能优势。
- 反方观点：无。
💡 本地LLMs具有较高的性价比
- 解释：1美分就能完成类似写一本书的工作量。
💡 应在表格中加入API调用成本数据以用于与供应商比较
- 解释：有助于全面比较成本。
💡 计算LLM电力消耗应考虑系统空闲状态
- 解释：在短时间使用时系统空闲能耗不可忽视。

金句与有趣评论

“😂 3090 installed and barely done anything with it and the bill up by $30 😂 (Can’t imagine using it as a local llm server)”
- 亮点：生动地表达了3090在未充分使用时就增加了不少电费，影响将其用作本地LLM服务器的意愿。
“🤔 So, for 1 cent it will write a book”
- 亮点：简洁地强调了本地LLMs的高性价比。
“👀 Don’t forget system idle. In my case that consumes much much more than gens.”
- 亮点：提出了容易被忽视的系统空闲功耗问题。

情感分析

总体情感倾向是积极的。主要分歧点在于硬件性能和功耗的比较（如3090和3060）、成本计算方式（如是否加入API调用成本）以及电力消耗测量（是否考虑系统空闲）等方面。可能的原因是不同用户有不同的使用场景、硬件设备以及对成本和性能的关注点不同。

趋势与预测

新兴话题：封闭模型的电力消耗估算。
潜在影响：对本地LLMs的优化和推广有影响，如果能更准确地估算成本和电力消耗，有助于用户更好地选择适合自己的模型，同时也会促使开发者在优化模型功耗方面做更多努力。

详细内容：

标题：关于本地 LLMs 运行的实际电力消耗与成本的热门讨论

在 Reddit 上，一则有关“Actual Electricity Consumption and Cost to Run Local LLMs. From Gemma3 to QwQ.”的帖子引发了热烈关注。该帖子对 17 种本地 LLMs 的 Tokens/WattHour 和 Tokens/US cent 进行了计算，并提供了相关的表格、图表和公式的链接https://github.com/QuantiusBenignus/Zshelf/discussions/2。此贴获得了众多用户的积极参与，评论数众多，讨论方向主要集中在电力消耗的测量方式、不同 GPU 型号的效率对比、模型的参数设置对能耗的影响等方面。

在讨论中，主要观点包括：有人指出需要明确具体的 GPU 型号，比如 RTX 3090 比 RTX 3060 效率高很多；有人认为使用瓦特时计测量会更好，同时也有人表示有大量在线数据可参考；还有人提到对于部分模型的处理可能存在不公平，需要更详细的对比等。

比如，有用户分享道：“作为一名在硬件领域有一定研究的爱好者，我发现当我将 3090 限制在 250W 时，实际功率并非一直稳定在 250W。我不怀疑 3090 比 3060 效率高两倍的说法，但获取真实世界的测量数据会更好。我确信由于 2 个 3060 在 PCIe 上的内存/模型分割，会有相当大的能量损耗。将单个 3060 与单个 3090 进行比较，同时考虑适合 3060 的 12GB VRAM 的模型，可能会更公平。”

也有用户表示：“对于那些我在图表中称为异常值的模型，我将少于所有层的内容卸载到 GPU 上。我仍然想知道我的功耗和成本，所以它们被包含在其中并带有说明。我在文中提到了这一点，并基于该事实得出结论。实际上，这种拟合更有利于具有全层卸载的模型。”

此外，还有用户提到系统闲置时的能耗问题，有人认为如果是短时间使用 LLM，闲置能耗可能与使用时相当；但也有人认为对于一般用途的计算机，这不是典型情况。

讨论中的共识在于，本地运行 LLMs 的成本相对较低，但不同地区的电力价格和 GPU 型号等因素会对最终的成本产生较大影响。特别有见地的观点是，有人强调了隐私问题，认为在其个人情况中，为了保证数据完全在自己的机器上，额外的闲置能耗是可以接受的。

总之，这场关于本地 LLMs 运行的电力消耗和成本的讨论，为大家提供了丰富的信息和多样的观点，让人们对这一问题有了更深入的认识和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#