您在32B或70B模型中使用什么GPU?它们每秒处理的token速度有多快?
讨论总结
这个讨论围绕着运行32B/70B模型所使用的GPU以及相应的运行速度展开。用户们分享了各自使用的GPU型号,如RTX 3090、4090、M3 Max等,同时阐述了在不同量化设置、硬件环境下这些GPU的运行速度,并且还探讨了一些影响速度的因素,如内存带宽、量化方法等,整体讨论氛围专注于技术交流。
主要观点
- 👍 使用M3 - Max 64GB和2xrtx - 3090用于32B或70B模型
- 支持理由:评论者chibop1给出自己的使用情况。
- 反对声音:无
- 🔥 32B模型使用特定设置在特定GPU上有一定的每秒处理token数
- 正方观点:如评论者tengo_harambe分享了32B模型使用Q8,将32K上下文加载到2个GPU上能达到20 toks/秒。
- 反方观点:无
- 💡 不同的量化方法在不同的上下文长度下速度有差异
- 解释:例如exl2在24K - 32K上下文时速度约为GGUF的两倍。
- 💡 Ryzen AI 9 Hx 370的iGPU类似GTX 1070,速度可能不错,但内存带宽是运行大型模型速度的限制因素
- 解释:评论者JuCaDemon和lazy - kozak的讨论提到相关观点。
- 💡 RTX 3090的24GB内存难以满足多数32B模型
- 解释:xephadoodle表示原本以为RTX 3090可行,但发现多数32B模型会超出该卡24GB的内存。
金句与有趣评论
- “😂 Well I just tried qwq at q4km at got 0.5 tps with my rx6600 and ddr5 - 6000 ram 😂”
- 亮点:分享了一个相对较低的运行速度结果,与其他用户的结果形成对比。
- “🤔 I think GGUF的确定性和质量对我的用途来说更为重要,所以即使它速度较慢我也能接受。”
- 亮点:表明在量化方法选择上,质量和确定性有时比速度更重要。
- “👀 For 70b model, it takes up to 20 minutes to answer.”
- 亮点:让大家对特定硬件配置下运行70b模型的时间有了概念。
情感分析
总体情感倾向是中性的,大家主要是在分享信息和交流经验。分歧点在于不同GPU和量化方式的选择,这主要是由于大家的使用需求、硬件环境和经济考量等因素不同所导致的。
趋势与预测
- 新兴话题:新的推测解码技术对模型运行速度的提升以及不同硬件配置下如何更好地运用该技术。
- 潜在影响:有助于其他用户在构建类似的AI模型运行环境时做出更合理的GPU和硬件配置选择,推动相关技术在不同硬件平台上的优化。
详细内容:
标题:关于 GPU 用于 32B/70B 模型的热门讨论
在 Reddit 上,一个题为“ What GPU do you use for 32B/70B models, and what speed do you get? ”的帖子引起了众多用户的热烈讨论。该帖主要询问大家用于 32B 或 70B 模型的 GPU 类型以及运行速度。此帖获得了大量的关注,评论众多,大家纷纷分享自己的经验和见解。
讨论焦点与观点分析:
有人使用 M3-Max 64GB 和 2 个 RTX-3090 ,并提供了相关的测试链接。还有人拥有 3 个 3090 ,对于 32B 模型和 70B 模型,根据不同的量化方式和上下文长度,获得了不同的每秒令牌数(toks/second)。
比如,有人指出在 Windows 10 上使用 koboldcpp ,对于 32B 模型,使用 Q8 加载到 2 个 GPU 上能达到 20 个每秒令牌数;对于 70B 模型,使用 Q6 加载到 3 个 GPU 上,无草案模型约 10 个每秒令牌数,有草案模型则在 10 到 40 之间。
关于量化方式的选择,有人提出为何使用 GGUF 量化而不是 exl2 ,认为 exl2 在高上下文长度下速度是 GGUF 的两倍,且质量也更好。但也有人因为确定性和质量等原因选择了 GGUF 。
在硬件设置方面,有人使用 i5 10600 和 16GB 系统内存,仅升级了 3090 显卡;有人在电脑 5 年前的 z490 芯片组上运行第三个 GPU ;还有人考虑从单张 3060 升级到 2 个 3090 。
不同用户使用的 GPU 型号和得到的速度差异较大。比如,有人用双 4090 获得约 17 到 20 个每秒令牌数,有人用 RTX 4060 ti 16gb 得到不同的速度,有人用 RX 6600 则速度较低。
总之,这场讨论涵盖了丰富的 GPU 型号、量化方式、硬件配置以及运行速度等内容,为大家提供了多样的参考和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!