由于 Command-R 的上下文缓存非常“紧凑”,我想知道 exllama 的 Q4 缓存是否像对 Qwen2 那样有显著的负面影响。所以这里有一些测试。
对于 3.75bpw 量化:
– 推理(token)………………………………….
– 评估困惑度:6.4694
– 推理(token,8 位缓存)………………………………….
– 评估困惑度:6.5394
– 推理(token,Q4 缓存)………………………………….
– 评估困惑度:6.4981
– 推理(token,Q6 缓存)………………………………….
– 评估困惑度:6.4736
– 推理(token,Q8 缓存)………………………………….
– 评估困惑度:6.4698
在 4bpw 下:
– 推理(token)………………………………….
– 评估困惑度:6.3955
– 推理(token,8 位缓存)………………………………….
– 评估困惑度:6.5069
– 推理(token,Q4 缓存)………………………………….
– 评估困惑度:6.4098
– 推理(token,Q6 缓存)………………………………….
– 评估困惑度:6.3992
– 推理(token,Q8 缓存)………………………………….
– 评估困惑度:6.3958
在本地数据集上测试了 10K 上下文(一个长故事)。
以下是 exllama 的 MMLU 测试,涉及以下科目:解剖学、形式逻辑、全球事实、概念物理、杂项、逻辑谬误、人类性行为
FP16 缓存:
正确答案:1310/1673 = 78.30%
置信度:74.80%
Q4 缓存:
正确答案:1313/1673 = 78.48%
置信度:74.65%
Q6 缓存
正确答案:1322/1673 = 79.02%
置信度:74.75%
我的即兴印象,继续并分析一个部分 90K 的故事,以及连续分析长文档和论文,与 Q4/Q6 和相同设置…
它在任一缓存模式下似乎都很聪明,但响应确实不同。这并不总是如此,因为我有“旧”模型在 Q4 和 Q6 模式下给出相同的响应。
此外,它太聪明了。它甚至没有犯足够的错误,以至于我无法真正判断 Q4 与 Q6,就像旧的长上下文模型那样。所以我想这意味着 Q4 工作得相当好。
我只是想看看 Q4 或 Q6 是否对 Command-R 是“最佳”的,并引用 Adam Savage 的话,在科学和瞎搞之间唯一的区别就是写下来。
讨论总结
本次讨论主要聚焦于Command-R 35B模型在不同量化缓存(Q4、Q6、Q8)下的性能表现。用户们分享了他们的测试数据和主观感受,探讨了不同缓存设置对模型推理性能的影响,特别是在处理长文档和论文时的表现。此外,讨论还涉及了模型的非商业许可证限制、前端选择以及通过调整块大小来优化提示处理速度的策略。总体上,讨论呈现出对模型性能的深入分析和实际应用中的积极反馈。
主要观点
- 👍 Command-R在24GB设备上的运行设置和优化策略
- 支持理由:用户分享了在24GB内存设备上运行Command-R的具体设置,包括不同缓存设置(Q4、Q6、Q8)和块大小的调整。
- 反对声音:无明显反对声音,多数用户对优化策略表示认可。
- 🔥 不同缓存设置(Q4、Q6、Q8)对模型性能的影响
- 正方观点:用户通过实验数据展示了不同缓存配置下的性能差异,认为Q4缓存对性能的影响较小。
- 反方观点:无明显反方观点,多数用户对不同缓存设置的性能表现持肯定态度。
- 💡 通过调整块大小来优化提示处理速度
- 解释:用户讨论了通过调整块大小来优化提示处理速度的方法,认为这是提升模型性能的有效策略。
- 👀 使用不同前端(如exui、text-gen-web-ui、TabbyAPI)来运行模型
- 解释:用户分享了使用不同前端来运行Command-R的经验,认为前端选择对模型性能有一定影响。
- 🌟 Command-R的上下文大小和量化比特率的关系
- 解释:用户讨论了Command-R的上下文大小与量化比特率的关系,认为这对模型性能有重要影响。
金句与有趣评论
- “😂 Downtown-Case-1755:You can run the full 131K, at 3.75bpw, with a 3K chunk size (aka prompt processing batch size) for fast prompt processing.”
- 亮点:展示了在24GB设备上运行Command-R的具体优化策略。
- “🤔 glowcialist:This model is a gift. I thought I was going to need a second card, but I can put that on hold for now.”
- 亮点:表达了用户对Command-R模型性能的满意和惊喜。
- “👀 HvskyAI:Anecdotally, the model is incredibly competent, and I’m really enjoying it so far.”
- 亮点:分享了用户在实际应用中对Command-R模型的积极体验。
情感分析
讨论的总体情感倾向积极,多数用户对Command-R模型的性能表示满意,并分享了他们在实际应用中的积极体验。主要分歧点在于不同缓存设置对模型性能的影响,但多数用户认为Q4缓存在实际应用中表现良好。可能的原因是用户对模型的优化策略和实际应用体验给予了高度评价。
趋势与预测
- 新兴话题:通过深入研究Cohere的提示指南来进一步优化模型表现。
- 潜在影响:Command-R模型的优化策略和实际应用体验可能会对相关领域的模型优化和应用产生积极影响。
详细内容:
标题:关于 Command-R 35B 模型的热门讨论
近日,Reddit 上一则关于 Command-R 35B 模型的帖子引发了热烈讨论。该帖展示了一系列针对此模型不同缓存设置下的测试数据,包括量化方式、推理情况、评估困惑度等,还提到了 exllama 的 MMLU 测试结果。帖子获得了众多关注,评论数众多。
讨论的焦点主要集中在该模型的性能表现、适用的缓存模式、使用场景和相关技术细节等方面。
有人认为,在不同的缓存模式下,模型的表现有所差异,比如 Q4 和 Q6 模式的响应就不完全相同。还有人提到,该模型在处理长文档和长故事时表现出色,尽管存在一些小问题,如 sycophancy 偏差、重复问题等,但通过适当的采样和重新生成可以解决。
有用户询问在特定条件下如何运行新的 Command-R 模型,比如需要多大的显存、合适的上下文大小和设置等。有人分享说可以在 24GB 显存下以特定设置运行,还提到了不同的前端使用体验,如 exui 的简单快速和 text-gen-web-ui 的特点。也有用户提到模型的非商业许可证限制了其实际应用。
总的来说,大家对 Command-R 35B 模型的评价颇高,认为它性能强大、表现出色,但也存在一些有待改进和需要注意的地方。
感谢您的耐心阅读!来选个表情,或者留个评论吧!