原贴链接

嗨！最近发现了本地大型语言模型（LLM），我一直在用ollama玩llama、一些R1蒸馏模型和其他几个模型，玩得很开心。我很好奇这里的人都在什么样的电脑上运行这些模型，以及每秒能处理多少个标记（token）。我一直在使用8代i5处理器和16GB内存的电脑，说实话，即使是80亿参数的模型运行起来也相当不错（好吧，也不是特别好，但考虑到我的CPU很慢，我觉得已经很厉害了。看不到确切的每秒标记数，但我猜，较大模型每秒3 - 4个标记，较小的30亿参数模型可能每秒10 - 15个左右）。（另外，附注一下，我还是不理解量化（quantization），有人能尽可能简单地给我解释一下吗？还有我如何在ollama中使用它呢？）

讨论总结

原帖作者对大家运行本地LLMs的硬件情况感兴趣，并且询问量化相关知识。评论者们纷纷分享自己的硬件设备，如不同型号的CPU、GPU、内存大小等，以及在这些设备上运行模型的速度，如每秒处理的token数或者it数。也有人提到硬件构建计划、硬件升级的情况，还有设备运行中的一些问题，如驱动不稳定等。同时，有一位评论者用类比的方式对量化概念进行了解释。整体氛围比较和谐，大家专注于分享自己的硬件使用情况。

主要观点

👍 使用多种硬件设备运行模型
- 支持理由：众多评论者分享了自己使用不同硬件设备运行模型的情况，如AMD 7900xtx、Mac Studio 192、Dell t5810工作站等，体现了硬件设备的多样性。
- 反对声音：无
🔥 硬件配置影响模型运行速度
- 正方观点：很多评论者在分享硬件配置的同时提到了运行特定模型的速度，如3090和2080 Ti组合在70B模型上每秒9 - 10个tokens，表明硬件配置与运行速度有关。
- 反方观点：无
💡 不同设备用于不同目的或任务
- 解释：有评论者表示拥有不同配置的机器用于不同目的，像有的机器适合加载模型和代码补全，有的用于测试更大模型，笔记本电脑可在外出时运行小模型。
💡 硬件存在一些使用问题
- 解释：例如AMD 7900xtx之前驱动不稳定，还有人提到硬件升级是因为GPU性能不足等情况。
💡 量化概念与模型大小的关系
- 解释：通过类比的方式阐述量化对模型大小的控制作用，以及在LLM中模型大小取决于参数等因素。

金句与有趣评论

“😂 Currently: M1 Max 64GB. It can run anything, that doesn’t require CUDA, just a bit slowly.”
- 亮点：简单明了地介绍了M1 Max设备的情况，虽然能运行程序但速度有点慢，很直接地表达出设备的特点。
“🤔 Drivers were shit (crash on load, crash on idle, crash on sleep/wake) until a month or so ago.”
- 亮点：生动地描述了AMD 7900xtx之前驱动不稳定的糟糕情况。
“👀 I can run models up to 32B iQ3_M 32k context 10tk/s / 14B Q6 65k context 15tk/s”
- 亮点：具体给出了不同模型在特定硬件上的运行速度，数据清晰，有助于了解硬件的运行能力。
“😂 Ryzen 5 1600, 128gb RAM, 72gb vram( 2x 3090, 2x 3060)”
- 亮点：简洁地列出硬件配置，没有多余的描述，让读者能快速获取信息。
“🤔 旧的服务器主板（双E5 - 2620，共24线程）、192GB内存、2个P40（每个24GB显存），这套设备是在四年期间花费约1000美元组建的。”
- 亮点：详细介绍了硬件设备的组建情况，包括花费的时间和金额，比较有参考价值。

情感分析

总体情感倾向为中性，大家主要是在分享自己的硬件使用情况，没有明显的正面或负面情绪。主要分歧点较少，只是在硬件性能、速度等方面存在一些不同的情况，但这也是正常的设备差异体现。可能的原因是大家都专注于回答原帖关于硬件使用的问题，没有引发太多争论性的话题。

趋势与预测

新兴话题：关于主板分叉对GPU的token生成速度的影响可能会引发后续讨论，因为有人提出了这个疑问但还没有得到解答。
潜在影响：对硬件厂商来说，如果更多人关注硬件在运行LLMs方面的性能，可能会促使他们优化产品或者推出更适合运行LLMs的硬件。对于LLMs的使用者来说，了解更多硬件相关的知识有助于选择合适的硬件来提高模型运行效率。

详细内容：

标题：众人硬件配置大揭秘！Reddit 热门讨论

在 Reddit 上，一篇题为“What hardware is everyone using?”的帖子引发了众多网友的热烈讨论。该帖讲述了作者在使用第八代 i5 处理器和 16GB 内存运行 llama 等模型的经历，好奇大家都用什么样的电脑配置运行这些模型以及能达到的处理速度。此帖获得了大量的关注，评论数众多，主要讨论方向集中在大家所使用的硬件配置和相关的性能表现。

讨论焦点与观点分析：

有人目前使用 M1 Max 64GB，正在打造双 3090 服务器，未来希望能在五月获得 Project Digits。
有人认为 AMD AI Max 系列很有前景，其具有四通道 DDR5 配置和 X86 的优势，期待相关评测。
有人拥有 AMD 7900xtx，显卡的驱动曾问题不断，直到一个月前才稳定。用 llama-cpp vulkan 后端能达到 30 左右的处理速度，而 rocm 版本则较慢。
有人在日常 PC 上运行，使用 16GB 内存和没有 ROCm 支持的 AMD GPU，LMstudio 很棒。
有人使用 Mac Studio 192。
有人拥有 128GB 系统内存，但内存带宽不足，将模型加载到 3090 上。
有人在不断探索哪种配置效果最佳，拥有多种设备并根据需求灵活使用。
有人能在 3090 上运行 32B 模型，还在考虑添加 4090，同时担心电源问题。
有人指出 DeepSeek 模型很大，很少有人用 GPU，服务器 CPU 能以较低成本实现不错的性能。
有人询问为何几乎没人用 GPU，也有人询问是否有人在家运行 V3 模型。

总之，这场讨论呈现了大家丰富多样的硬件配置和使用体验，为正在探索相关领域的人们提供了宝贵的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#