原贴链接

针对17个本地大语言模型(包括新的Gemma3模型)计算了每瓦时的令牌数和每美分的令牌数。在相似条件和提示下测量每次运行的壁插电源功率。估计的表格、图表和公式见:https://github.com/QuantiusBenignus/Zshelf/discussions/2。平均而言,消费级硬件和本地大语言模型平均量化到Q5。

讨论总结

原帖给出了17种本地LLMs的Tokens/WattHour和Tokens/US cent的计算结果,包括新的Gemma3模型。评论者从多个方面进行了讨论,如硬件的选择和性能(如3090与3060的比较)、性价比、成本计算与比较(包括API调用成本)、电力消耗的测量和计算(是否考虑系统空闲状态等),整体氛围是积极的技术交流,大家都在探讨如何更好地衡量本地LLMs的电力消耗和成本。

主要观点

  1. 👍 原帖应确切指定GPU模型
    • 支持理由:不同GPU模型效率不同,确切指定有助于准确对比。
    • 反对声音:无。
  2. 🔥 3090在特定功率限制下每秒产生的token数是两个125W的3060的2倍以上
    • 正方观点:这体现了3090的性能优势。
    • 反方观点:无。
  3. 💡 本地LLMs具有较高的性价比
    • 解释:1美分就能完成类似写一本书的工作量。
  4. 💡 应在表格中加入API调用成本数据以用于与供应商比较
    • 解释:有助于全面比较成本。
  5. 💡 计算LLM电力消耗应考虑系统空闲状态
    • 解释:在短时间使用时系统空闲能耗不可忽视。

金句与有趣评论

  1. “😂 3090 installed and barely done anything with it and the bill up by $30 😂 (Can’t imagine using it as a local llm server)”
    • 亮点:生动地表达了3090在未充分使用时就增加了不少电费,影响将其用作本地LLM服务器的意愿。
  2. “🤔 So, for 1 cent it will write a book”
    • 亮点:简洁地强调了本地LLMs的高性价比。
  3. “👀 Don’t forget system idle. In my case that consumes much much more than gens.”
    • 亮点:提出了容易被忽视的系统空闲功耗问题。

情感分析

总体情感倾向是积极的。主要分歧点在于硬件性能和功耗的比较(如3090和3060)、成本计算方式(如是否加入API调用成本)以及电力消耗测量(是否考虑系统空闲)等方面。可能的原因是不同用户有不同的使用场景、硬件设备以及对成本和性能的关注点不同。

趋势与预测

  • 新兴话题:封闭模型的电力消耗估算。
  • 潜在影响:对本地LLMs的优化和推广有影响,如果能更准确地估算成本和电力消耗,有助于用户更好地选择适合自己的模型,同时也会促使开发者在优化模型功耗方面做更多努力。

详细内容:

标题:关于本地 LLMs 运行的实际电力消耗与成本的热门讨论

在 Reddit 上,一则有关“Actual Electricity Consumption and Cost to Run Local LLMs. From Gemma3 to QwQ.”的帖子引发了热烈关注。该帖子对 17 种本地 LLMs 的 Tokens/WattHour 和 Tokens/US cent 进行了计算,并提供了相关的表格、图表和公式的链接https://github.com/QuantiusBenignus/Zshelf/discussions/2。此贴获得了众多用户的积极参与,评论数众多,讨论方向主要集中在电力消耗的测量方式、不同 GPU 型号的效率对比、模型的参数设置对能耗的影响等方面。

在讨论中,主要观点包括:有人指出需要明确具体的 GPU 型号,比如 RTX 3090 比 RTX 3060 效率高很多;有人认为使用瓦特时计测量会更好,同时也有人表示有大量在线数据可参考;还有人提到对于部分模型的处理可能存在不公平,需要更详细的对比等。

比如,有用户分享道:“作为一名在硬件领域有一定研究的爱好者,我发现当我将 3090 限制在 250W 时,实际功率并非一直稳定在 250W。我不怀疑 3090 比 3060 效率高两倍的说法,但获取真实世界的测量数据会更好。我确信由于 2 个 3060 在 PCIe 上的内存/模型分割,会有相当大的能量损耗。将单个 3060 与单个 3090 进行比较,同时考虑适合 3060 的 12GB VRAM 的模型,可能会更公平。”

也有用户表示:“对于那些我在图表中称为异常值的模型,我将少于所有层的内容卸载到 GPU 上。我仍然想知道我的功耗和成本,所以它们被包含在其中并带有说明。我在文中提到了这一点,并基于该事实得出结论。实际上,这种拟合更有利于具有全层卸载的模型。”

此外,还有用户提到系统闲置时的能耗问题,有人认为如果是短时间使用 LLM,闲置能耗可能与使用时相当;但也有人认为对于一般用途的计算机,这不是典型情况。

讨论中的共识在于,本地运行 LLMs 的成本相对较低,但不同地区的电力价格和 GPU 型号等因素会对最终的成本产生较大影响。特别有见地的观点是,有人强调了隐私问题,认为在其个人情况中,为了保证数据完全在自己的机器上,额外的闲置能耗是可以接受的。

总之,这场关于本地 LLMs 运行的电力消耗和成本的讨论,为大家提供了丰富的信息和多样的观点,让人们对这一问题有了更深入的认识和思考。