原贴链接

我收集了一些信息来估算自己运行更大模型的成本。使用两块3090似乎是运行700亿参数模型的合理选择。2500美元的前期成本是可控的，但性能似乎只有每秒12个token左右。所以你需要大约500瓦时来生成43200个token。在我国这大约是15美分的能源成本。与Groq API相比：Llama 3.1 70B Versatile 128k 1M输入T 0.59美元 | 100万输出T 0.79美元。看起来仅仅是能源成本就总是比使用API付费高出数倍。除了数据安全方面的好处，本地运行大型语言模型（LLM）是否曾有经济可行性？我只是很惊讶，并且想知道是我遗漏了什么还是我的计算有误。

讨论总结

这是一个关于本地运行大型模型（如Llama 70）和使用API（如Huggingface / Groq）成本比较的讨论。原帖认为本地运行成本更高，评论者们从不同角度发表观点，包括云服务补贴使API成本低、本地运行的隐私安全等优势、不同的成本计算方式、硬件发展对成本的影响等，整体氛围理性且包含多种不同的观点和见解。

主要观点

👍 原帖关于本地运行模型价格不占优的分析正确。
- 支持理由：很多评论者从不同角度如云服务补贴、API运行硬件效率等进行了补充说明。
- 反对声音：部分评论者通过自身经验或不同计算方式表示反对。
🔥 当下云服务因有补贴对终端用户更便宜。
- 正方观点：如OpenAI有投资者补贴，使得其API运行成本低于本地运行的电费。
- 反方观点：无明显反对观点，但有评论者指出这种情况难以持续。
💡 企业用电价格与居民用电不同影响成本比较。
- 解释：不同用电类型价格有差异，会对本地运行成本计算产生影响。
💡 行业不成熟，各企业定价旨在抢占份额而非收支平衡。
- 解释：这也是造成云服务API价格较低的一个因素。
💡 规模经济在价格方面更具优势。
- 解释：使用API可以利用规模经济，而本地运行在这方面相对劣势。

金句与有趣评论

“😂 你的分析是正确的，至少在今天，价格不是选择本地（运行模型）的理由。”
- 亮点：直接肯定原帖关于本地运行模型成本不占优的观点。
“🤔 它就像在问，既然能从商店买到西红柿，为什么还要自己种呢。规模经济在价格上总是会赢。”
- 亮点：通过形象比喻解释规模经济下API在价格上的优势。
“👀 我认为除了每个token的成本之外，由于机器闲置（如果想要开机并保持可用），成本甚至更高。”
- 亮点：指出本地运行除token成本外，机器闲置会增加成本这一容易被忽视的点。
“😂 云服务由投资者的钱补贴，所以对终端用户来说更便宜。”
- 亮点：简单明了地阐述云服务便宜的原因。
“🤔 如果有太阳能板，在本地运行大模型可能会更便宜。”
- 亮点：提出了本地运行降低成本的一种可能方式。

情感分析

总体情感倾向比较理性中立。主要分歧点在于本地运行和使用API到底哪个成本更低以及本地运行是否有价值。产生分歧的原因包括计算成本的方式不同（如是否考虑设备闲置成本、不同地区的能源价格差异等）、对本地运行价值的认知差异（如隐私安全、灵活性等非成本因素的考量）。

趋势与预测

新兴话题：太阳能板用于本地运行模型的成本效益分析、不同硬件设备（如M1 ultra studio）运行模型的成本探讨。
潜在影响：如果本地运行成本一直较高，可能会影响模型开发者和使用者对本地运行的积极性，更多依赖API可能会导致数据隐私风险增加，以及对云服务提供商的依赖程度加深。如果能找到降低本地运行成本的有效方式，可能会推动本地运行模型的发展，增加模型使用的自主性和灵活性。

详细内容：

标题：在本地运行大型语言模型的成本与云端服务的比较引发Reddit热议

在Reddit上，一则关于在本地运行Llama 70是否总是比使用Huggingface或Groq等云端服务更昂贵的帖子引起了广泛关注。该帖子收集了一些信息来估算自行运行大型模型的成本。比如使用2个3090显卡来运行70b模型，前期成本约2500美元，性能约为每秒12个令牌，生成43200个令牌需约500瓦时，在作者所在国家能源成本约15美分。相比之下，Llama 3.1 70B的云端服务价格具有一定优势。这一话题引发了众多讨论，核心问题是：除了数据安全等好处，在本地运行LLMs是否在经济上可行？

在讨论中，观点纷呈。有人认为当前价格选择本地并非明智之举，因为云服务目前由投资者补贴，价格更便宜。但也有人指出，企业大量用电会有工业价格优惠，成本可能更低。还有人提到行业尚不成熟，各方定价旨在抢占市场，未来价格可能会变。

有人以种植蔬菜和购买蔬菜作类比，说明本地运行模型的独特性。也有人认为太阳能板可能降低成本，但关于其是否真的免费存在争议。有人指出对于仅本地推理，除非有特殊需求，否则可能不太划算，因为API提供商对多数模型的收费较低。但也有人通过个人经历表明，在特定任务下本地运行成本更低。

有人认为API运行在专用加速器上，效率更高。有人提到本地运行在高容量时才可能在纯财务上有意义，更多是为了隐私、控制和乐趣。还有人认为如果已经有用于游戏的硬件，本地运行可能更合适。

总之，这场讨论展示了在本地运行大型语言模型的复杂性和多样性，各方观点各有依据，也反映了人们在成本、性能、隐私等多方面的权衡和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#