速度不需要像ChatGPT那么快。仅用于文本生成，无视觉、微调等功能。无API调用，完全离线。我怀疑我负担不起，但还是想幻想一下。大概估算一下？

讨论总结

原帖对在自家运行90B llama模型（仅文本生成、速度要求不高且离线无API调用）的硬件成本表示好奇。评论从多方面展开讨论，如不同显卡（3090、4090、P40、MI60等）、内存（DDR4、DDR5）、CPU、服务器等硬件的性能、成本、适用场景，也提及了模型版本（如Llama - 3.1 - 70B、Llama - 3.2 - 90B）之间的关系和替代方案，整体讨论围绕硬件成本与运行llama模型的适配性。

主要观点

👍 运行90B llama模型对硬件要求高且成本大
- 支持理由：如单张3090（二手）加配套配置约2000美元，运行70B尚可，运行90B不现实；双张3090（二手）加配套配置约3000美元，运行90B马马虎虎；双张5090（新）加配套配置约6000美元，运行90B较好。
- 反对声音：无。
🔥 如果不需要视觉功能，可以选择Llama - 3.1 - 70B替代90B版本
- 正方观点：Llama - 3.2 - 90B - Vision本质是Llama - 3.1 - 70B加视觉功能，不需要视觉功能时70B版本可满足需求。
- 反方观点：无。
💡 DDR4和DDR5各有优劣
- DDR5的96或128GB内存如今价格应较为便宜，速度约1token/s，但4根内存条无法达到全速；DDR4非常便宜，在CPU推理速度慢的情况下没必要多花钱买DDR5，但DDR4带宽远低于DDR5。
🤔 不同硬件配置下运行模型的速度有很大差异
- 不同显卡、内存、CPU组合会使模型运行速度在每秒几个token到每秒几十token之间变动，像在苹果设备上运行特定模型速度与在PC上用显卡运行速度不同。
- 无。
🌟 云解决方案或小模型可能是更实用和划算的选择
- 在家运行90B Llama模型虽然可行但需要大量投资，推理速度比云方案慢，还需考虑功耗和冷却成本；而像together.ai等托管服务成本较低，必要时可本地运行8B的LLaMA3.1。
- 无。

金句与有趣评论

“😂 Llama-3.2-90B-Vision is literally just LLama-3.1-70B with vision attached to it, use Llama-3.1-70B instead if you don’t want vision.”
- 亮点：简洁明了地指出90B版本与70B版本的关系，为不需要视觉功能的用户提供了替代方案。
“🤔 You are bound by RAM bandwidth. DDR4 bandwidth is much lower than DDR5. You pay more (not even that more) to have higher speeds.”
- 亮点：清楚地阐述了DDR4和DDR5在带宽和速度方面的关系，以及价格因素对选择的影响。
“👀 我不认为有仅文本的90b版本的LLama 3（或2）。”
- 亮点：纠正了原帖可能存在的对模型版本的误解，引导讨论朝着正确的方向发展。
“😎 If speed really doesn’t matter, then you can run anything even on the worst hardware with enough disk space.”
- 亮点：提出了一种特殊情况下硬件选择的观点，打破了常规对高性能硬件的追求。
“💥 96 or 128GB of DDR5 RAM should be somewhat cheap these days, but expect around 1token\\s.”
- 亮点：给出了DDR5内存的价格和速度的大致情况，为讨论内存选择提供了数据支持。

情感分析

总体情感倾向为中性。主要分歧点在于不同硬件选择的优劣比较，例如DDR4和DDR5内存的选择、不同显卡运行模型的性价比等。原因是大家从不同的需求（如成本优先、性能优先等）和使用场景（如仅文本生成、是否离线等）出发，导致对硬件的评价和推荐有所不同。

趋势与预测

新兴话题：可能会进一步探讨如何优化硬件配置以提高模型运行速度和降低成本，例如是否有新的量化方法或者硬件组合方式。
潜在影响：对那些想要在家运行大型语言模型的个人用户来说，可以根据讨论中的建议选择合适的硬件，避免不必要的投资；对于硬件厂商来说，可根据用户对硬件运行模型的需求调整产品策略或研发方向。

详细内容：

标题：在家运行 90B llama 模型的硬件成本探讨

在 Reddit 上，有一个关于在家运行 90B llama 模型的热门讨论。原帖提到了在速度要求不高、仅进行文本生成且完全离线、不使用 API 调用的情况下，想探讨实现这一目标的可能性及大致成本。该帖子引发了众多网友的热烈讨论，吸引了大量的点赞和评论。

讨论焦点主要集中在各种硬件配置的选择及成本估算上。有人认为可以选择便宜的方案，如使用 64GB 内存和任意 GPU 运行较低量化程度的模型，也有人推荐使用诸如双 3090 或 4090 这样的高端显卡配置。还有用户分享了使用 AMD 相关显卡、Xeon 处理器等不同硬件的经验和看法。

例如，有用户提到“Option 1(very cheap): 64gb ram - run Q5km with 1t/s on CPU”。也有人说：“Option 2 (mid): 2x P40 (2x 24gb VRAM) - run q4km with 6-7 t/s, llama.cpp only”。还有用户表示：“Option 3(top): 2x 3090/4090 (2x 24gb vRAM) - run exl2 with exllamav2 - faster prompt processing and generation, also can train diffusion and text models.”

在讨论中，对于不同方案的优劣存在争议。一些用户认为高端显卡虽然性能强大，但成本过高；而选择较便宜的硬件配置，虽然能降低成本，但可能在速度和性能上有所妥协。

共识在于大家都认为在选择硬件配置时，需要综合考虑成本、性能、电力消耗等因素。

特别有见地的观点如有人提到可以利用旧的双 Xeon 系统进行 CPU 推理，虽然速度较慢，但成本较低。

总的来说，这场关于在家运行 90B llama 模型的硬件成本讨论十分丰富和深入，为有相关需求的用户提供了多种参考和思考方向。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#