原贴链接

嗨,大家好!我(迈克)和丹尼尔在Unsloth与[Open WebUI](https://github.com/open - webui/open - webui)的蒂姆合作,为大家带来如何在本地运行未蒸馏的DeepSeek - R1动态1.58位模型的逐步教程。本指南是摘要形式,强烈建议阅读完整指南(含图片):[https://docs.openwebui.com/tutorials/integrations/deepseekr1 - dynamic/](https://docs.openwebui.com/tutorials/integrations/deepseekr1 - dynamic/)。在96GB内存(无GPU)的情况下,预计每秒2个词元。运行DeepSeek - R1步骤:1. 安装Llama.cpp,可下载预构建二进制文件或按照此指南从源代码构建;2. 从Unsloth下载模型(1.58位,131GB),可从[Hugging Face](https://huggingface.co/unsloth/DeepSeek - R1 - GGUF)获取模型,也可用Python编程下载,下载完成后模型文件在特定目录结构下,要确保知道文件存储路径;3. 安装并运行Open WebUI,若未安装可按照文档简单设置,安装后启动应用;4. 用Llama.cpp启动模型服务器,在启动前要找到llama - server二进制文件(若从源代码构建Llama.cpp,该文件在特定目录下),指向模型文件夹(启动服务器时指定GGUF文件的第一部分),运行特定命令启动服务器,运行后服务器可在http://127.0.0.1:10000访问;5. 将Llama.cpp连接到Open WebUI,在Open WebUI中打开管理设置,在连接>OpenAI连接中添加特定URL和无密钥。注意:不需要GPU来运行此模型,但有GPU(至少24GB显存)会更快,尽量使内存+显存总和达到120GB以上以获得较好的每秒词元数。有问题或建议欢迎提出。

讨论总结

这个讨论围绕在Open WebUI上运行DeepSeek - R1 (671B) 1.58bit展开。评论者们提出了各种问题,如性能测试中的性能损失、在特定硬件(如128GB Macbook Pro、AMD的CPU和GPU等)上的运行情况、不同软件(如LM Studio和llama.cpp)在运行模型时的情况等,也有部分用户分享了自己的运行结果和操作体验,还有人对教程表示感谢和认可。

主要观点

  1. 👍 关注操作在基准测试中的性能损失
    • 支持理由:想要了解模型运行在基准测试中的性能表现,这有助于评估模型的实用性。
    • 反对声音:无。
  2. 🔥 询问是否有人在128GB Macbook Pro上尝试运行
    • 正方观点:了解在特定硬件设备上的运行情况可以为自己的尝试提供参考。
    • 反方观点:无。
  3. 💡 在M4 Max 128GB上得到约0.2tk/s的测试结果
    • 这为其他用户提供了在该设备上运行模型的速度参考。
  4. 💡 不能使用LM Studio运行模型,需要手动合并
    • 为想要使用LM Studio运行模型的用户提供了重要信息。
    • 反对声音:有人认为若LM Studio为更新版本则可运行。
  5. 💡 对原帖指南表示感谢
    • 认可原帖提供的教程有价值。

金句与有趣评论

  1. “😂 What kind of a performance hit does this have on benchmarks and has anyone tried this on a 128GB Macbook Pro?”
    • 亮点:这是很多人关心的两个问题,即性能损失和特定设备上的尝试情况,很有代表性。
  2. “🤔 I see it says "Even with our M4 Max (128GB RAM), inference speeds were modest." I’m going to have to try this ASAP.”
    • 亮点:看到文档中的信息后想要尽快尝试,反映出部分用户对模型运行的积极性。
  3. “👀 I tried it on my M4 Max 128GB and got about 0.2tk/s…”
    • 亮点:提供了具体的测试数据,对其他用户有参考价值。

情感分析

总体情感倾向是积极的,大多数评论者是在理性地探讨技术问题,如性能、运行方式等。主要分歧点在于某些软件(如LM Studio)是否能运行模型,可能的原因是不同用户使用的软件版本不同以及对模型运行机制的理解存在差异。

趋势与预测

  • 新兴话题:推测解码是否会提升运行速度可能会引发后续讨论,因为很多人关心模型运行速度的提升。
  • 潜在影响:如果这些技术问题(如不同硬件下的运行优化、软件的兼容性等)得到解决,可能会推动相关模型在更多场景下的应用,对人工智能领域有积极影响。

详细内容:

标题:如何在 Open WebUI 上运行 DeepSeek-R1(671B)1.58bit 引发的热门讨论

在 Reddit 上,一篇关于如何在 Open WebUI 上运行 DeepSeek-R1(671B)1.58bit 模型的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。帖子主要详细介绍了运行该模型的一系列步骤,包括安装 Llama.cpp、下载模型、安装和运行 Open WebUI 等。

讨论的焦点集中在运行该模型的性能表现和相关问题上。有人询问在 128GB 的 Macbook Pro 上的性能影响,有人分享在 M4 Max 128GB 设备上的运行速度,还有人提到不同硬件配置下的运行情况。

有用户表示在 M4 Max 128GB 上得到约 0.2 个令牌每秒的速度,而有人在特定配置下能达到 8 到 9 个令牌每秒。还有用户在运行过程中遇到了诸如内存不足、错误提示等问题。

比如,有用户分享道:“我在 M4 Max 128GB 上运行,速度只有约 0.2 令牌每秒。我尝试给它分配更多内存并这样启动:sudo sysctl iogpu.wired_limit_mb=122880 ./llama.cpp/build/bin/llama-cli --model ~/.cache/lm-studio/models/unsloth/DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf --cache-type-k q4_0 --threads 16 --prio 2 --temp 0.6 --ctx-size 8192 --seed 3407 --n-gpu-layers 45 -no-cnv --prompt \"<|User|>Create a Flappy Bird game in Python.<|Assistant|>\" 如果有人找到更好的参数,我会很感兴趣!”

对于运行速度的快慢,大家看法不一。有人认为速度过慢,有人则觉得还可以接受。同时,对于不同硬件配置和参数设置对性能的影响,也存在着争议和讨论。

总的来说,关于如何在 Open WebUI 上优化运行 DeepSeek-R1(671B)1.58bit 模型的讨论仍在继续,大家都在努力探索最佳的运行方案。