原贴链接

我想要运行自己的本地模型,比如较小的llama模型中的一个,试图至少部分替代我对谷歌搜索之类的使用,把我的文档放入检索增强生成(RAG)中以便我能询问相关问题等。我有一个本地修剪过的维基百科副本,我想对其进行RAG操作,这样我就可以问自然语言问题了。

目前我有一个3070ti,它能让我在部分卸载的情况下运行完整的8b(模型)。输出结果出奇地好,但这个模型经常显示出它的规模(局限性)。

例如,我能做的最便宜的升级是什么,以便能够以每秒标记数(而不是每标记秒数)的速度运行一个70b的模型呢?用装满廉价内存的大卡车(大量廉价内存)和一个CPU来运行那种规模的模型可行吗?

讨论总结

原帖作者想要运行本地模型,特别是想以便宜的方式升级硬件来运行70b模型,目前拥有3070ti但运行效果不理想。评论者们从不同角度进行回应,包括分享自己的硬件测试经验、推荐特定的硬件组合(如双RTX 3090 24GB构建、CMP 100 - 210s等)、提出不同系统(Mac与Linux)在运行模型上的情况、探讨不同内存配置对运行速度的影响,还有人建议先试用OpenRouter再决定是否需要本地硬件升级,整体氛围是大家围绕硬件相关话题进行经验分享与方案探讨。

主要观点

  1. 👍 EmilPi分享自己的基准测试帖子及相关硬件组合的性价比情况
    • 支持理由:提供了自己的测试数据和分析,对不同主板与内存组合、特定CPU和GPU下的每秒标记数进行了计算,从而得出性价比结论。
    • 反对声音:无。
  2. 🔥 获取两条32GB的DDR5内存来升级硬件以运行70b模型
    • 正方观点:从硬件配置角度提出满足运行要求的建议。
    • 反方观点:有人指出按此建议运行速度仍然很慢。
  3. 💡 Mac Mini和Mac Studio可运行特定模型
    • 解释:给出了Mac设备运行特定模型的速度,并引发了关于在Mac设备上运行Linux可行性的讨论。
  4. 💡 3B模型在短对话和快速问答场景下可运行
    • 解释:从模型适用性角度,基于原帖主需求考虑,认为3B模型可用于部分替代原帖主的应用场景。
  5. 💡 推荐先试用OpenRouter再决定是否需要本地硬件
    • 解释:针对原帖主想要本地硬件升级的情况,提供了一种先体验再决定的思路。

金句与有趣评论

  1. “😂 我写过一篇关于2x3090 + Threadripper,还有仅Threadripper推理的基准测试帖子。”
    • 亮点:分享了自己的相关经验成果,为讨论提供了有价值的参考数据来源。
  2. “🤔 现代双通道主板 + DDR5内存将与(四通道主板 + DDR4内存)速度相当(80GB / s +),甚至可能更好。”
    • 亮点:提供了不同主板和内存组合速度对比的信息,对硬件升级的选择有参考意义。
  3. “👀 M4 Pro 64GB Mac Mini should be able to run Qwen2.5 - 72B MLX 4bit at ~6 t/s.”
    • 亮点:给出了特定Mac设备运行特定模型的速度,是硬件推荐的重要依据。
  4. “🤔 我认为RTX 3090 24GB的价格正在下降,所以双RTX 3090 24GB的构建会运行良好。”
    • 亮点:基于价格趋势给出硬件构建的推荐。
  5. “😂 Nothing is more budget than a 10gb p102 - 100 mining card for $40.”
    • 亮点:强调了特定矿卡的性价比。

情感分析

总体情感倾向为中性务实。主要分歧点在于不同硬件推荐和方案在运行速度、性价比方面的差异。可能的原因是大家从不同的使用场景、硬件经验以及成本考虑出发,对如何以廉价方式运行本地模型有着不同的见解。

趋势与预测

  • 新兴话题:不同硬件在不同系统(如Mac与Linux)上运行本地模型的可行性探讨可能会引发后续讨论。
  • 潜在影响:对硬件市场可能会有一定影响,促使硬件厂商关注本地模型运行的需求,研发更适合的产品;对想要运行本地模型的用户来说,能获得更多样化的硬件选择和方案参考。

详细内容:

标题:寻找运行本地模型的经济硬件配置引发的热烈讨论

在 Reddit 上,有一篇题为“Budget hardware for running your own local model?”的帖子引起了众多网友的关注。该帖的作者表示想运行自己的本地模型,目前拥有 3070ti 显卡,希望找到更经济实惠的升级方案来运行例如 70b 这样规模的模型。此帖获得了大量的点赞和众多评论。

讨论的主要方向集中在不同硬件配置的性能和性价比上。

在众多观点中,有人提到自己曾写过一篇关于 2x3090 + Threadripper 的基准测试文章,并提供了相关链接https://www.reddit.com/r/LocalLLaMA/comments/1erh260/2x\\_rtx\\_3090\\_threadripper\\_3970x\\_256gb\\_ram\\_llm/,认为现代的双通道主板加上 DDR5 内存的读取速度与四通道主板加上 DDR4 内存差不多。如果使用至少一个 24GB VRAM 显卡,在最佳情况下每秒能处理约 7 个 token。

还有用户建议购买 2x32GB DDR5 内存,并以最快速度适配 CPU 和主板。

也有人指出,使用 i9-14900K 和 64GB 6400 MT/s 内存(目前为了稳定性运行在 6200),在 Llama-3.1-70b-nemotron 模型下每秒能生成 2.3 个 token,并认为 nemotron 模型被高估,Plain Llama 3.1/2 或 Qwen2.5 更好。

有用户表示 M4 Pro 64GB Mac Mini 运行 Qwen2.5-72B MLX 4bit 每秒能达到约 6 个 token,翻新的 M1/M2 Max 64GB Mac Studio 速度更快。但有人质疑能否在其上可靠运行 Linux 系统。

还有用户认为 Mac OS 是真正的 UNIX,而 Linux 是 UNIX 的仿制品。

也有人提出,如果想要使用 70B 模型的绝对最便宜的方法,那么需要购买 24GB 的显卡。可以选择两块二手的 3090,或者尝试二手的 Nvidia Tesla P40。

此外,有人推荐使用价格较为低廉的 CMP 100-210 显卡。

讨论中的共识在于都在努力寻找性价比高的硬件配置方案以满足运行本地模型的需求。而争议点在于不同配置的实际性能表现以及对特定模型的适配性。

总之,关于运行本地模型的硬件配置讨论热烈且丰富,为有相关需求的用户提供了多样的参考和思考方向。