提示评估时间 = 97774.66毫秒/367个标记(每个标记266.42毫秒,每秒3.75个标记) 评估时间 = 253545.02毫秒/380个标记(每个标记667.22毫秒,每秒1.50个标记) 总时间 = 351319.68毫秒/747个标记 不,不是精简版,而是实际671B模型的2位量化版本([IQ2XXS](https://huggingface.co/unsloth/DeepSeek - R1 - GGUF/tree/main/DeepSeek - R1 - UD - IQ2_XXS)),约200GB大小,在带有96GB DDR5 6800内存的14900K处理器和单个3090 24GB(卸载了5层)上运行,其余部分从PCIe 4.0 SSD(三星990 pro)运行 虽然实际用途有限,但它能运行就很惊人了!在更大的上下文下,仅处理提示就需要几分钟,标记生成实际上相当快 感谢https://www.reddit.com/r/LocalLLaMA/comments/1icrc2l/comment/m9t5cbw/ 编辑:一小时后,我尝试了一个更大的提示(800个标记输入),有更多标记输出(6000个标记输出)
提示评估时间 = 210540.92毫秒/803个标记(每个标记262.19毫秒,每秒3.81个标记) 评估时间 = 6883760.49毫秒/6091个标记(每个标记1130.15毫秒,每秒0.88个标记) 总时间 = 7094301.41毫秒/6894个标记 它‘可行’。就这样吧。可用吗?嗯。主要缺点是所有的<思考>……说实话。对于一个简单的答案,它要进行大量的<思考>,这会消耗很多标记,因此会花费很多时间,后续问题需要更多时间和上下文。
讨论总结
原帖讲述在特定硬件(14900K、96GB DDR5 6800、3090 24GB等且部分从SSD运行模型)上运行Deepseek R1 IQ2XXS (200GB)模型虽可行但实用性有限,评论者从多方面展开讨论,包括分享自己的硬件配置及运行情况、探讨不同架构(如MoE架构)、提出新的挑战(如从5400RPM旋转磁盘运行Deepseek)、对模型运行的时间数据提出疑问、探讨硬件性能(如SSD性能、内存与SSD的比较等)、寻求运行相关的帮助(如运行命令、初学者指南等)等,整体氛围积极探索,互相交流技术相关的经验与想法。
主要观点
- 👍 在特定硬件下测试DeepSeek - R1 - UD - IQ1_M有相关的性能表现
- 支持理由:有用户分享了在NVIDIA GeForce RTX 3090、AMD Ryzen 9 5900X和64GB ram(DDR4 3600 XMP)等硬件下的性能指标,如llama_perf_sampler_print中的采样时间等。
- 反对声音:无。
- 🔥 MoE架构约有37B的600B + 活跃参数,约5%的权重在每个token中是活跃的
- 正方观点:vertigo235等用户从架构原理等角度阐述,如在MoE架构下虽所有参数加载到VRAM,但推理时仅使用部分参数。
- 反方观点:有用户对MoE架构存在疑惑,如对如何在单个模型文件中加载特定“专家”等。
- 💡 本地运行模型只有在有自动化持续运行时才有价值
- 解释:评论者fraschm98分享运行模型结果,认为正常情况下每个提示要等待数小时,除非自动化持续运行,否则不值得。
金句与有趣评论
- “😂 Bro just created a new "Doom running in a calculator" trend. 🤣”
- 亮点:以幽默诙谐的方式调侃原帖作者的行为,将其类比为创造新奇趋势,形象生动。
- “🤔 It’s amazing!!! running DeepSeek - R1 - UD - IQ1\_M, a 671B with 24GB VRAM.”
- 亮点:表达出对特定模型能在24GB VRAM下运行的惊叹之情。
- “👀 I also got 130gb llm running on 32gb of ram and was shocked.”
- 亮点:分享自己类似的让大模型在小内存上运行成功的经历,引起共鸣。
情感分析
总体情感倾向为积极探索。主要分歧点在于不同技术观点的讨论,如对MoE架构的理解、不同硬件对性能的影响等。可能的原因是大家来自不同的技术背景,对模型运行相关技术有不同的理解和经验,并且都希望在原帖的基础上深入探讨如何优化模型运行等问题。
趋势与预测
- 新兴话题:使用SSD内存运行程序代替RAM的可能性、V3动态量化的应用。
- 潜在影响:对模型运行效率的提升可能会有进一步的探索和改进,促使更多人关注不同量化方式以及硬件使用策略对运行模型的影响。
详细内容:
标题:在 SSD 上运行大型模型的热门讨论
近日,Reddit 上一则关于在 SSD 上运行 DeepSeek R1 IQ2XXS(200GB)模型的帖子引发了热烈讨论。该帖子展示了一系列复杂的性能数据,获得了大量的关注,众多用户纷纷分享自己的经验和观点。
帖子中主要讨论了在不同硬件配置下运行该模型的性能表现,包括 CPU、GPU、内存、SSD 等组件的影响。有人测试了不同的量化版本,如 1.73 位、1.58 位等,并分享了相应的采样时间、加载时间、评估时间和总时间等数据。
讨论焦点与观点分析如下:
- 一些用户分享了自己的硬件配置和测试结果,如拥有 NVIDIA GeForce RTX 3090、AMD Ryzen 9 5900X 以及不同容量内存的用户。
- 例如:有用户分享道:“NVIDIA GeForce RTX 3090 + AMD Ryzen 9 5900X + 64GB ram(DDR4 3600 XMP),llama_perf_sampler_print: sampling time = 33,60 ms / 512 runs ( 0,07 ms per token, 15236,28 tokens per second)。”
- 关于性能瓶颈的看法不一,有人认为是内存吞吐量和 PCIe 规格,有人则认为是 SSD 性能。
- 例如:有用户表示:“PCI -E 和内存吞吐量是脱盘推理的最大问题。基本上,你需要最快的 RAM 和最强大的主板,否则推理时间会非常长。”
- 对于模型的准确性和适用性,也存在不同观点,在编程等特定任务中表现有所差异。
- 例如:有用户提到:“在编码方面,它不如 70B 和 32B 蒸馏版本,对于简单的 Python 脚本编写请求,它给出了有错误的代码。”
讨论中的共识在于,运行这样的大型模型需要在硬件配置和性能优化方面进行不断尝试和探索。特别有见地的观点如将模型与大脑神经元的工作方式进行类比,丰富了对模型架构的理解。
总的来说,这场讨论展示了用户们在探索新技术时的热情和努力,也反映出在硬件和软件协同优化方面仍有很大的提升空间。
感谢您的耐心阅读!来选个表情,或者留个评论吧!