原贴链接

在23758MB内存下,使用exllama q4。

不可思议!这比大多数约34b的模型扩展性好得多,特别是Yi。权重本身就有19.6 GiB,这意味着上下文只有大约4.4GB。

我认为3.85bpw可能是最佳的全上下文甜蜜点,而4.0bpw将足够。不过我怀疑这是否是那些“额外密集”的模型之一,比如最近的8B模型,在4bpw时会显著退化,或者像Qwen2那样,因为它已经非常“压缩”,所以不喜欢Q4缓存。

编辑:

更多测试笔记。

  • 使用Q6缓存的97K(可能是“全”缓存量化质量),以及使用Q6缓存的3.5bpw下几乎全上下文。

  • Q4和Q6缓存似乎都连贯,但输出确实不同。exllama的test_inference基准测试对我来说出错了,关于某个缺失的扩展,所以我还没有测试Q4和Q6之间的困惑度。

讨论总结

本次讨论主要聚焦于“Command-R’s Full 131K Context Fits in 24GB at 3.75bpw”这一主题,涵盖了模型的性能优化、量化缓存(Q4和Q6)、上下文长度以及推理速度等多个技术层面。参与者们分享了各自在不同硬件配置下的测试结果,讨论了模型在16GB显卡上的适用性,以及通过CPU和GPU的分配优化推理速度的可能性。此外,讨论还涉及了开源社区的活跃度、商业化猜测以及模型压缩技术的应用。整体氛围偏向技术探讨,参与者们积极分享数据和经验,共同寻求最佳的模型使用方案。

主要观点

  1. 👍 模型在24GB内存下的表现
    • 支持理由:Command-R模型在24GB内存下能处理131K的上下文,表现优于其他类似模型。
    • 反对声音:在高上下文情况下,推理速度显著下降。
  2. 🔥 量化缓存的影响
    • 正方观点:Q4和Q6缓存下的模型输出保持了一定的连贯性。
    • 反方观点:不同缓存设置下的输出有所不同,需要进一步测试以确定最佳设置。
  3. 💡 上下文长度的优化
    • 3.85bpw可能是最佳的上下文长度,而4.0bpw也能很好地适应。
  4. 👍 模型压缩技术
    • 支持理由:模型压缩技术有助于将模型压缩到16GB,提高在有限资源下的可用性。
    • 反对声音:压缩可能导致模型性能下降。
  5. 🔥 开源社区的活跃度
    • 正方观点:社区成员积极分享数据和经验,共同推动技术进步。
    • 反方观点:Ollama项目活跃度下降,许多问题和模型请求未得到回应。

金句与有趣评论

  1. “😂 If only Ollama would merge the PR I’ve had open for two months now to enable K/V context cache quantisation folks using Ollama could do this as well :/”
    • 亮点:反映了开源社区中PR合并延迟的问题,引发对项目活跃度的担忧。
  2. “🤔 What is the RULER score for this model? Big context is nice if reliable.”
    • 亮点:强调了模型在大上下文情况下的可靠性问题,引发对模型性能的深入讨论。
  3. “👀 I’m going with a lower temp. setting, Min-P, and DRY. Fairly happy with it, so far.”
    • 亮点:分享了模型参数调整的经验,为其他用户提供了实用的参考。

情感分析

讨论的总体情感倾向偏向积极,参与者们对模型的性能和优化表现出浓厚的兴趣。主要分歧点在于模型的量化缓存设置和上下文长度的优化,以及开源社区的活跃度。这些分歧主要源于技术层面的不同理解和经验,以及对项目未来发展的不同期待。

趋势与预测

  • 新兴话题:模型压缩技术和量化缓存设置的进一步优化,以及开源社区的活跃度和商业化可能性。
  • 潜在影响:这些技术讨论和经验分享可能推动模型性能的进一步提升,同时也可能影响开源社区的发展方向和商业模式。

详细内容:

标题:关于 Command-R 模型的热门讨论

在 Reddit 上,一篇关于“Command-R’s Full 131K Context Fits in 24GB at 3.75bpw”的帖子引发了热烈讨论。该帖主要探讨了 Command-R 模型在不同量化设置下的性能表现,以及其对显存和计算资源的利用情况。此帖获得了众多关注,评论数众多。

讨论的焦点主要集中在以下几个方面: 有人分享了自己的量化上传链接,如“我正在这里上传我的量化:https://huggingface.co/Downtown-Case/CohereForAI_c4ai-command-r-08-2024-exl2-3.75bpw/”。 有人询问 Exlv2 是否支持 CPU 推理,得到了否定的回答,但也提到了一些关于 CPU 与 GPU 协同处理的情况。 有人提到了不同量化方式对 16GB 显卡的适用性,还探讨了一些高效的量化方法。 有人关心该模型的 RULER 分数,以及与其他类似模型的比较。 对于模型的每秒生成令牌数、在不同显卡上的表现等也有不少讨论。

例如,有用户表示“在 exui 中,在 3090 上高上下文(如 90K)时约为 16 令牌/秒”。还有用户称“在我的 3090 上 32K 时能达到约 39 - 40 令牌/秒”。

对于模型在不同使用场景下的表现,大家也各抒己见。有人在尝试后认为它在某些方面优于之前使用的模型,也有人对其持保留态度。

关于模型的一些设置和格式,如提示的处理方式,也有详细的交流。

总的来说,这次关于 Command-R 模型的讨论十分丰富和深入,为大家更全面地了解该模型提供了多样的视角和有价值的信息。