原贴链接

我注意到EXL2经常被推荐,所以决定试一试。硬件:2个3090。采样设置:温度为0.7,top_k为40,top_p为0.8。每个测试都使用不同的种子运行至少三次。提示:创建一个单一的HTML文件,建立一个基本的Three.js场景,其中有一个旋转的3D地球仪。地球仪应该有高细节(64个分段),地球表面使用占位纹理,并包括环境光和定向光以实现逼真的阴影。实现绕Y轴的平滑旋转动画,处理窗口大小调整以保持合适的比例,并使用抗锯齿使边缘更平滑。解释:场景设置:用抗锯齿初始化场景、相机和渲染器。球体几何:创建一个高细节的球体几何(64个分段)。纹理:使用THREE.TextureLoader加载占位纹理。材料与网格:将纹理应用于球体材料并为地球仪创建一个网格。照明:添加环境光和定向光以增强场景的真实感。动画:使地球仪绕Y轴持续旋转。调整大小处理:当窗口大小调整时调整渲染器大小和相机宽高比。结果:bartowski/Qwen2.5 - Coder - 32B - Instruct - EXL2 6.5bpw和5bpw与tabbyAPI:HTML提示不起作用。我尝试了多次迭代,但都没有得到可行的解决方案。bartowski/Qwen2.5 - Coder - 32B - Instruct - GGUF Q6_K llama.cpp:速度慢,但一直能产生可行的解决方案。Qwen/Qwen2.5 - Coder - 32B - Instruct - AWQ vllm:比GGUF快但比EXL2慢;一直能产生可行的解决方案。我无法让EXL2在任何采样设置下产生可行的解决方案。我尝试提高和降低温度,但都没有用。我也尝试了其他测试,在我的测试中EXL2版本显然存在质量问题。问题:EXL2的这种行为是预期的吗?你有任何关于如何解决这个问题的指导吗?

讨论总结

原帖作者在进行EXL2测试时未能得到有效解决方案,怀疑其存在质量问题并询问是否正常及如何解决。评论者们从各自的经验和测试出发,有的指出原帖作者可能存在的操作问题,如未明确运行提示方式;也有很多人分享自己在使用EXL2时遇到的问题,如编码结果差、在角色扮演中长文本语境下表现不佳、函数调用有漏洞等,还有人对EXL2与其他量化类型(如gguf)进行比较,整体讨论围绕EXL2的质量问题展开,充满技术探讨氛围。

主要观点

  1. 👍 原帖作者应明确运行提示的具体方式。
    • 支持理由:原帖只给出测试结果称EXL2无法产生有效方案,但未详细说明运行提示的方式,如前端使用情况、提示格式化等,明确这些有助于更准确判断问题。
    • 反对声音:无。
  2. 🔥 EXL2在编码方面的结果比预期的要差。
    • 正方观点:有评论者通过自己的测试发现,原以为4.65 BPW EXL2量化应该和Q4_K_M GGUF量化表现差不多,但实际编码结果明显更差。
    • 反方观点:无。
  3. 💡 EXL2输出质量低于gguf。
    • 有评论者以自身角色扮演的使用经验为基础,经过大量研究发现,尽管exl2速度快,但gguf输出质量更高。
  4. 💡 EXL2在角色扮演中长文本语境下表现出重复性和连贯性差的问题。
    • 评论者在使用中发现该问题,对EXL2在长文本语境下的表现表示困惑。
  5. 💡 可能存在与EXL2类似的情况,问题或许不是独一无二的。
    • 有评论者指出存在有问题的gguf,暗示EXL2的问题可能与之存在某种关联。

金句与有趣评论

  1. “😂 你需要更具体说明你是如何运行这个提示的。”
    • 亮点:直接指出原帖在描述问题时的关键缺失部分,为后续讨论奠定基础。
  2. “🤔 我原以为4.65 BPW EXL2量化应该和Q4_K_M GGUF量化表现差不多,但在编码方面结果明显更差。”
    • 亮点:明确提出EXL2在编码方面与预期不符的情况,引发对EXL2质量问题的深入思考。
  3. “👀 在RP中,EXL2似乎在长语境下极其重复且连贯性较差,这让我十分困惑。”
    • 亮点:揭示了EXL2在角色扮演长文本语境下的特殊问题。
  4. “😂 我曾经使用exl2,直到发现它在函数调用方面有漏洞。”
    • 亮点:指出EXL2在函数调用方面存在的问题,进一步证明EXL2存在多种问题。
  5. “🤔 我提到这个是因为exllama可能在32K上下文或以上时开启YaRN,而其他后端不会。”
    • 亮点:从技术角度解释提及上下文大小的原因,为解决EXL2问题提供思路。

情感分析

总体情感倾向为中性偏负面。主要分歧点在于EXL2是否存在质量问题,部分评论者给出自己成功运行的案例或者不同的观点,但更多评论者分享了自己遇到的EXL2的问题,包括在不同功能和场景下的表现不佳。可能的原因是大家的测试环境、使用场景、对模型的期望不同,导致对EXL2的评价存在差异。

趋势与预测

  • 新兴话题:EXL2的问题是否与其他量化类型(如gguf)存在关联,以及如何解决EXL2的质量问题。
  • 潜在影响:如果EXL2的问题被证实且普遍存在,可能会影响其在相关领域(如大语言模型应用、需要特定量化类型的场景等)的使用,促使开发者改进或者用户转向其他替代方案。

详细内容:

标题:关于 EXL2 推理质量问题的热门讨论

在 Reddit 上,一篇关于“EXL2 Inference Quality Issues”的帖子引发了广泛关注。原帖作者详细介绍了自己的硬件配置和采样设置,并对不同模型在特定任务中的表现进行了测试。该帖获得了众多评论和互动。

原帖中,作者使用 2x3090 的硬件,在特定采样设置下对多种模型进行测试,如 bartowski/Qwen2.5-Coder-32B-Instruct-EXL2 、bartowski/Qwen2.5-Coder-32B-Instruct-GGUF Q6_K llama.cpp 、Qwen/Qwen2.5-Coder-32B-Instruct-AWQ vllm 等。结果发现 EXL2 无法生成有效的解决方案,而其他模型表现各异。

讨论焦点主要集中在 EXL2 的表现和质量问题上。有人指出需要更具体说明运行提示的方式和所使用的前端,因为这可能是导致问题的原因,并提供了一个直接调用 Tabby 的 bash 脚本和相关示例。还有人认为不同量化方法下模型表现应相似,但实际并非如此,如 4.65 BPW EXL2 量化在编码方面比 Q4_K_M GGUF 量化差,且在角色扮演中,EXL 重复较多,连贯性差。

也有人提到,虽然理论上模型应在相同设置下表现相近,但实践中发现 exl2 给出的答案比 GGUF 差很多,即使比特率更低。不过,也有人认为 Nemotron 70B 与 EXL2 配合效果不错,且采样格式等因素会产生影响,但 exl2 的量化质量有时确实存在问题。

有人分享自己从 exl2 切换到 ollama 的经历,认为 ollama 虽然速度慢,但更连贯和智能。还有人提到 exllama 可能存在的一些设置问题以及可能的解决方法。

有人表示在角色扮演中,exl2 产生的输出质量低于 gguf,自己已从使用 exl2 转为仅使用 gguf,因为输出质量更重要。

总之,关于 EXL2 的推理质量问题,大家观点不一,存在诸多争议和讨论。究竟是设置问题、量化过程的差异,还是其他因素导致了不同的表现,仍需进一步探讨和研究。