大家好,我想了解一下大家在本地运行Deepseek v3的体验。我一直在构建一个本地推理机,并且设法获取了足够的内存来运行Q4_K_M。配置:至强w7 - 3455、华硕W790 Sage、432GB DDR5 @ 4800(4x32、3x96、16)、3个RTX 3090。llama命令:./build/bin/llama - server –model ~/llm/models/unsloth_DeepSeek - V3 - GGUF_f_Q4_K_M/DeepSeek - V3 - Q4_K_M/DeepSeek - V3 - Q4_K_M - 00001 - of - 00009.gguf –cache - type - k q5_0 –threads 22 –host 0.0.0.0 –no - context - shift –port 9999 –ctx - size 8240 –gpu - layers 6。小语境下的结果:(什么是Deepseek?)约为7,提示评估时间 = 1317.45毫秒/7个令牌(每个令牌188.21毫秒,每秒5.31个令牌),评估时间 = 81081.39毫秒/269个令牌(每个令牌301.42毫秒,每秒3.32个令牌),总时间 = 82398.83毫秒/276个令牌。大语境下的结果:(Shopify主题文件+提示),提示评估时间 = 368904.48毫秒/3099个令牌(每个令牌119.04毫秒,每秒8.40个令牌),评估时间 = 372849.73毫秒/779个令牌(每个令牌478.63毫秒,每秒2.09个令牌),总时间 = 741754.21毫秒/3878个令牌。在ktransformers团队能够整合它之前,在本地运行这个模型似乎没有任何意义。你们怎么看?我是不是遗漏了什么来提高性能?
讨论总结
原帖作者分享自己构建本地推理机来运行Deepseek v3的经历,包括硬件配置、运行命令以及不同语境下的结果,并认为在ktransformers团队整合之前本地运行该模型没有意义。评论者们围绕硬件配置(如内存条、3090显卡等)、性能优化(调整参数、提升内存速度等)、硬件性能(GPU的作用等)等方面展开讨论,有分享自己硬件配置和经验的,也有给出提升性能建议的。
主要观点
- 👍 原帖作者认为在ktransformers团队整合之前本地运行Deepseek v3没有意义
- 支持理由:原帖作者给出自己在本地运行的性能数据,在不同语境下运行速度都不理想。
- 反对声音:无
- 🔥 增加256G内存无助于提升性能
- 正方观点:评论者根据自己的经验或者对原帖数据的分析得出。
- 反方观点:无
- 💡 调整运行Deepseek v3的相关参数可能提高性能
- 解释:NewBrilliant6795给出了一些参数调整建议,虽然原帖作者尝试后效果不佳,但体现了一种优化性能的思路。
- 💡 内存条规格不同会影响内存速度和推理速度
- 解释:slavik - f分析原帖作者的硬件配置指出这一观点。
- 💡 GPU对提升速度帮助不大
- 解释:有评论者根据自己的经验和对原帖数据的分析认为GPU在提升速度方面没有太大作用。
金句与有趣评论
- “😂 enkafan: That 16gb stick”
- 亮点:以一种特别的方式回应原帖中的硬件配置部分,引起关于内存条的讨论。
- “🤔 easyrider99: lol we all need heroes. Story is I started with 2 sets of ram, 4x32gb and 4x16gb. Managed to get a good deal on 3 96gb sticks and didn’t have the heart to pull that little guy out. Looking to source that last 96gb stick..”
- 亮点:分享自己硬件内存的配置历程,比较有趣且让其他用户了解到获取内存的情况。
- “👀 NewBrilliant6795: Could you try it with
--split - mode layer
and-ts 3,4,4
and also change –gpu - layers to as many as can fit on the 3090s?”- 亮点:针对原帖作者性能不佳的情况给出具体的技术建议。
- “😉 a_beautiful_rhind: 那些是比我在Mac mini上看到的更低的提示处理数字。”
- 亮点:通过与Mac mini对比,直观地反映出设备性能的情况。
- “🤨 slavik - f: But that speed achievable only if all memory sticks are same size and speed.”
- 亮点:指出内存条规格相同对速度的重要性。
情感分析
总体情感倾向比较中性,大家主要是在理性地探讨Deepseek v3本地运行的相关问题。主要分歧点在于GPU对速度提升是否有帮助,以及增加内存是否有助于提升性能等,原因是不同用户有不同的硬件配置和运行经验,导致对这些因素的作用看法不同。
趋势与预测
- 新兴话题:关于如何在本地更好地运行Deepseek v3可能会引发更多的技术讨论,如更深入的硬件优化和参数调整。
- 潜在影响:如果能找到在本地高效运行Deepseek v3的方法,可能会对相关的编码、推理应用产生积极影响,促进更多用户在本地使用该模型。
详细内容:
标题:关于 Deepseek v3 本地运行的热烈讨论
在 Reddit 上,一则关于 Deepseek v3 本地运行体验的帖子引发了众多关注。该帖主分享了自己构建本地推理机器的经历,并详细列出了硬件配置和运行命令及结果。此帖获得了大量的点赞和众多评论。
帖子引发的主要讨论方向包括不同硬件配置对性能的影响、各种优化尝试以及与其他模型的对比等。
核心问题是:在当前情况下,本地运行 Deepseek v3 是否具有实际意义,以及如何提高其性能。
讨论焦点与观点分析:
有人分享了自己在数据中心使用类似硬件的经历,认为避免混合不同规格的内存条能保证性能和稳定性。
有人提到自己曾在不同配置下运行 Deepseek 及相关模型,并分享了具体的处理速度和生成速度。比如,有用户表示在特定配置下,仅能得到约 0.35t/s 的生成速度。
还有用户提供了相关的优化建议,如尝试特定的命令参数和检查 NUMA 选项等。
也有人对内存带宽和硬件配置的合理性提出了看法,认为帖主由于内存配置的问题导致性能受到较大影响。
在讨论中,大家的共识在于需要进一步优化配置和等待相关工具的更新以提升 Deepseek v3 的性能。
特别有见地的观点如有人指出在当前状况下,纯 CPU 推理可能效果更差,而使用特定的命令参数可能会带来一定的性能提升。
总的来说,这次关于 Deepseek v3 本地运行的讨论展现了大家对于提升性能的积极探索和深入思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!