我收集了一些信息来估算自己运行更大模型的成本。使用两块3090似乎是运行700亿参数模型的合理选择。2500美元的前期成本是可控的,但性能似乎只有每秒12个token左右。所以你需要大约500瓦时来生成43200个token。在我国这大约是15美分的能源成本。与Groq API相比:Llama 3.1 70B Versatile 128k 1M输入T 0.59美元 | 100万输出T 0.79美元。看起来仅仅是能源成本就总是比使用API付费高出数倍。除了数据安全方面的好处,本地运行大型语言模型(LLM)是否曾有经济可行性?我只是很惊讶,并且想知道是我遗漏了什么还是我的计算有误。
讨论总结
这是一个关于本地运行大型模型(如Llama 70)和使用API(如Huggingface / Groq)成本比较的讨论。原帖认为本地运行成本更高,评论者们从不同角度发表观点,包括云服务补贴使API成本低、本地运行的隐私安全等优势、不同的成本计算方式、硬件发展对成本的影响等,整体氛围理性且包含多种不同的观点和见解。
主要观点
- 👍 原帖关于本地运行模型价格不占优的分析正确。
- 支持理由:很多评论者从不同角度如云服务补贴、API运行硬件效率等进行了补充说明。
- 反对声音:部分评论者通过自身经验或不同计算方式表示反对。
- 🔥 当下云服务因有补贴对终端用户更便宜。
- 正方观点:如OpenAI有投资者补贴,使得其API运行成本低于本地运行的电费。
- 反方观点:无明显反对观点,但有评论者指出这种情况难以持续。
- 💡 企业用电价格与居民用电不同影响成本比较。
- 解释:不同用电类型价格有差异,会对本地运行成本计算产生影响。
- 💡 行业不成熟,各企业定价旨在抢占份额而非收支平衡。
- 解释:这也是造成云服务API价格较低的一个因素。
- 💡 规模经济在价格方面更具优势。
- 解释:使用API可以利用规模经济,而本地运行在这方面相对劣势。
金句与有趣评论
- “😂 你的分析是正确的,至少在今天,价格不是选择本地(运行模型)的理由。”
- 亮点:直接肯定原帖关于本地运行模型成本不占优的观点。
- “🤔 它就像在问,既然能从商店买到西红柿,为什么还要自己种呢。规模经济在价格上总是会赢。”
- 亮点:通过形象比喻解释规模经济下API在价格上的优势。
- “👀 我认为除了每个token的成本之外,由于机器闲置(如果想要开机并保持可用),成本甚至更高。”
- 亮点:指出本地运行除token成本外,机器闲置会增加成本这一容易被忽视的点。
- “😂 云服务由投资者的钱补贴,所以对终端用户来说更便宜。”
- 亮点:简单明了地阐述云服务便宜的原因。
- “🤔 如果有太阳能板,在本地运行大模型可能会更便宜。”
- 亮点:提出了本地运行降低成本的一种可能方式。
情感分析
总体情感倾向比较理性中立。主要分歧点在于本地运行和使用API到底哪个成本更低以及本地运行是否有价值。产生分歧的原因包括计算成本的方式不同(如是否考虑设备闲置成本、不同地区的能源价格差异等)、对本地运行价值的认知差异(如隐私安全、灵活性等非成本因素的考量)。
趋势与预测
- 新兴话题:太阳能板用于本地运行模型的成本效益分析、不同硬件设备(如M1 ultra studio)运行模型的成本探讨。
- 潜在影响:如果本地运行成本一直较高,可能会影响模型开发者和使用者对本地运行的积极性,更多依赖API可能会导致数据隐私风险增加,以及对云服务提供商的依赖程度加深。如果能找到降低本地运行成本的有效方式,可能会推动本地运行模型的发展,增加模型使用的自主性和灵活性。
详细内容:
标题:在本地运行大型语言模型的成本与云端服务的比较引发Reddit热议
在Reddit上,一则关于在本地运行Llama 70是否总是比使用Huggingface或Groq等云端服务更昂贵的帖子引起了广泛关注。该帖子收集了一些信息来估算自行运行大型模型的成本。比如使用2个3090显卡来运行70b模型,前期成本约2500美元,性能约为每秒12个令牌,生成43200个令牌需约500瓦时,在作者所在国家能源成本约15美分。相比之下,Llama 3.1 70B的云端服务价格具有一定优势。这一话题引发了众多讨论,核心问题是:除了数据安全等好处,在本地运行LLMs是否在经济上可行?
在讨论中,观点纷呈。有人认为当前价格选择本地并非明智之举,因为云服务目前由投资者补贴,价格更便宜。但也有人指出,企业大量用电会有工业价格优惠,成本可能更低。还有人提到行业尚不成熟,各方定价旨在抢占市场,未来价格可能会变。
有人以种植蔬菜和购买蔬菜作类比,说明本地运行模型的独特性。也有人认为太阳能板可能降低成本,但关于其是否真的免费存在争议。有人指出对于仅本地推理,除非有特殊需求,否则可能不太划算,因为API提供商对多数模型的收费较低。但也有人通过个人经历表明,在特定任务下本地运行成本更低。
有人认为API运行在专用加速器上,效率更高。有人提到本地运行在高容量时才可能在纯财务上有意义,更多是为了隐私、控制和乐趣。还有人认为如果已经有用于游戏的硬件,本地运行可能更合适。
总之,这场讨论展示了在本地运行大型语言模型的复杂性和多样性,各方观点各有依据,也反映了人们在成本、性能、隐私等多方面的权衡和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!