无有效可翻译内容（仅为一个视频链接）

讨论总结

这是一个关于R1 (1.73bit)在96GB的VRAM和128GB DDR4下运行情况的讨论。原帖可能以视频形式展示相关内容，评论者从不同角度进行讨论，包括运行的性能、速度、硬件配置的影响、量化方式对结果质量的影响等，也有新手寻求帮助、表达感谢等内容，整体氛围偏向技术交流探讨。

主要观点

👍 运行特定模型存在挑战，加载困难且需调试内存
- 支持理由：评论者分享自己运行模型时加载耗时且要反复试验适配内存。
- 反对声音：无。
🔥 运行在DDR4中的层有严重瓶颈
- 正方观点：评论者boringcynicism指出运行在DDR4中的层造成严重瓶颈。
- 反方观点：无。
💡 对测试速度的预期未达成，实际速度低且提示处理慢
- 解释：作者Mart - McUH表示预期有更高速度，但实际速度低，提示处理痛苦。
💡 当前量化方式损害结果质量，反向方式可提高但对DeepSeek不支持
- 解释：Chromix_指出当前量化方式有害，反向方式可提高质量但对DeepSeek不支持。
💡 不同硬件配置影响速度
- 解释：多个评论者提到如GPU有无、显存大小、内存类型等硬件配置对速度有影响。

金句与有趣评论

“😂 Totally not usable but still neat that a SOTA reasoning model can be run at home at all.”
- 亮点：体现了虽然模型运行效果不佳但在家能运行也有意义。
“🤔 Damn that’s disappointing, the layers that run in DDR4 bottleneck it so hard.”
- 亮点：直接指出DDR4造成的瓶颈令人失望。
“👀 我承认我预期会有更高的速度。”
- 亮点：表达对速度未达预期的看法。
“😉 70B distill at IQ4_XS可能更好（而且快得多），我没有耐心对IQ1_S进行适当的测试。”
- 亮点：对不同配置下速度和测试的观点。
“💡 Just a note for later: You’re currently using Q4 for K and F16 for V quantization, doing so is detrimental to the result quality.”
- 亮点：指出量化方式对结果质量的影响。

情感分析

总体情感倾向较为中性客观。主要分歧点在于对不同硬件和配置下的性能表现看法不同，例如对DDR4的性能评价，有人认为是瓶颈，有人分享自己在DDR4下的运行速度。可能的原因是不同的硬件组合、量化设置以及测试环境等因素导致大家有不同的体验和结论。

趋势与预测

新兴话题：关于是否可以通过合并专家得到小版本的R1进行推测性解码。
潜在影响：对LLM模型的优化、硬件配置的选择以及量化方式的改进等方面可能产生影响，有助于提高模型的性能和效率。

详细内容：

标题：关于在特定配置下运行 R1 模型的热门讨论

最近，Reddit 上有一个关于在 96GB 的 VRAM 和 128GB DDR4 配置上运行 R1 模型的讨论引起了广泛关注。原帖提供了一个视频链接（https://v.redd.it/04p2c5rtf2ie1/DASH_1080.mp4?source=fallback），众多用户纷纷参与讨论，分享自己的经历和观点。

讨论的焦点主要集中在以下几个方面：

关于不同量化版本的改进效果，有人好奇 1.73bit 相比 1.58bit 是否有显著提升。
不同硬件配置下的运行速度，比如有用户称用 24GB 的 VRAM 和 128GB 的 RAM，能达到 3.3 令牌/秒；也有人表示 11 张 3090 显卡能达到 20T/秒。
影响运行速度的因素，包括内存类型、文件系统、是否使用 GPU 以及模型的量化方式等。

有人分享道：“作为一名尝试者，我拥有 2xP40 和 2x3090 的配置。加载模型花费了不少时间，还得反复尝试以适应内存。虽然完全不可用，但能在家里运行 SOTA 推理模型还是挺新奇的。以下是命令：./llama-cli \\\\\\n --model /path/to/DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_M/DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf \\\\\\n --cache-type-k q4_0 \\\\\\n --threads 16 \\\\\\n --prio 2 \\\\\\n --temp 0.6 \\\\\\n --ctx-size 4096 \\\\\\n --seed 3407 \\\\\\n --n-gpu-layers 27 \\\\\\n -no-cnv \\\\\\n --prompt \\\"<｜User｜>Create a Flappy Bird game in Python.<｜Assistant｜>\\\" ”

有人提出疑问：“1.73bit 是一个显著的改进吗？”

还有人分享个人经历：“DeepSeek 能在家里运行！去他的 OpenAI 的贪婪。”

一位用户表示：“用 24GB 的 VRAM 和 128GB 的 RAM，我能够得到 3.3 令牌/秒。但这是使用 1.58 位模型和 12 核 CPU 的情况。”

有人认为：“拥有 11 张 3090 显卡、20T/秒和 10k 上下文。”

也有人感叹：“我得把我当前设置中的 GPU 和 RAM 加倍才能达到这种性能水平……”

有人好奇：“它是卸载到 CPU 上？还是完全在 GPU 上？”

对于这些讨论，大家各抒己见。有人认为某些配置下的速度没有达到预期；有人指出模型的量化方式对结果质量有影响；还有人探讨了不同文件系统对速度的影响。总之，这场讨论丰富而多元，为大家在相关领域的探索提供了更多的思路和参考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#