原贴链接

我注意到EXL2经常被推荐，所以决定试一试。硬件：2个3090。采样设置：温度为0.7，top_k为40，top_p为0.8。每个测试都使用不同的种子运行至少三次。提示：创建一个单一的HTML文件，建立一个基本的Three.js场景，其中有一个旋转的3D地球仪。地球仪应该有高细节（64个分段），地球表面使用占位纹理，并包括环境光和定向光以实现逼真的阴影。实现绕Y轴的平滑旋转动画，处理窗口大小调整以保持合适的比例，并使用抗锯齿使边缘更平滑。解释：场景设置：用抗锯齿初始化场景、相机和渲染器。球体几何：创建一个高细节的球体几何（64个分段）。纹理：使用THREE.TextureLoader加载占位纹理。材料与网格：将纹理应用于球体材料并为地球仪创建一个网格。照明：添加环境光和定向光以增强场景的真实感。动画：使地球仪绕Y轴持续旋转。调整大小处理：当窗口大小调整时调整渲染器大小和相机宽高比。结果：bartowski/Qwen2.5 - Coder - 32B - Instruct - EXL2 6.5bpw和5bpw与tabbyAPI：HTML提示不起作用。我尝试了多次迭代，但都没有得到可行的解决方案。bartowski/Qwen2.5 - Coder - 32B - Instruct - GGUF Q6_K llama.cpp：速度慢，但一直能产生可行的解决方案。Qwen/Qwen2.5 - Coder - 32B - Instruct - AWQ vllm：比GGUF快但比EXL2慢；一直能产生可行的解决方案。我无法让EXL2在任何采样设置下产生可行的解决方案。我尝试提高和降低温度，但都没有用。我也尝试了其他测试，在我的测试中EXL2版本显然存在质量问题。问题：EXL2的这种行为是预期的吗？你有任何关于如何解决这个问题的指导吗？

讨论总结

原帖作者在进行EXL2测试时未能得到有效解决方案，怀疑其存在质量问题并询问是否正常及如何解决。评论者们从各自的经验和测试出发，有的指出原帖作者可能存在的操作问题，如未明确运行提示方式；也有很多人分享自己在使用EXL2时遇到的问题，如编码结果差、在角色扮演中长文本语境下表现不佳、函数调用有漏洞等，还有人对EXL2与其他量化类型（如gguf）进行比较，整体讨论围绕EXL2的质量问题展开，充满技术探讨氛围。

主要观点

👍 原帖作者应明确运行提示的具体方式。
- 支持理由：原帖只给出测试结果称EXL2无法产生有效方案，但未详细说明运行提示的方式，如前端使用情况、提示格式化等，明确这些有助于更准确判断问题。
- 反对声音：无。
🔥 EXL2在编码方面的结果比预期的要差。
- 正方观点：有评论者通过自己的测试发现，原以为4.65 BPW EXL2量化应该和Q4_K_M GGUF量化表现差不多，但实际编码结果明显更差。
- 反方观点：无。
💡 EXL2输出质量低于gguf。
- 有评论者以自身角色扮演的使用经验为基础，经过大量研究发现，尽管exl2速度快，但gguf输出质量更高。
💡 EXL2在角色扮演中长文本语境下表现出重复性和连贯性差的问题。
- 评论者在使用中发现该问题，对EXL2在长文本语境下的表现表示困惑。
💡 可能存在与EXL2类似的情况，问题或许不是独一无二的。
- 有评论者指出存在有问题的gguf，暗示EXL2的问题可能与之存在某种关联。

金句与有趣评论

“😂 你需要更具体说明你是如何运行这个提示的。”
- 亮点：直接指出原帖在描述问题时的关键缺失部分，为后续讨论奠定基础。
“🤔 我原以为4.65 BPW EXL2量化应该和Q4_K_M GGUF量化表现差不多，但在编码方面结果明显更差。”
- 亮点：明确提出EXL2在编码方面与预期不符的情况，引发对EXL2质量问题的深入思考。
“👀 在RP中，EXL2似乎在长语境下极其重复且连贯性较差，这让我十分困惑。”
- 亮点：揭示了EXL2在角色扮演长文本语境下的特殊问题。
“😂 我曾经使用exl2，直到发现它在函数调用方面有漏洞。”
- 亮点：指出EXL2在函数调用方面存在的问题，进一步证明EXL2存在多种问题。
“🤔 我提到这个是因为exllama可能在32K上下文或以上时开启YaRN，而其他后端不会。”
- 亮点：从技术角度解释提及上下文大小的原因，为解决EXL2问题提供思路。

情感分析

总体情感倾向为中性偏负面。主要分歧点在于EXL2是否存在质量问题，部分评论者给出自己成功运行的案例或者不同的观点，但更多评论者分享了自己遇到的EXL2的问题，包括在不同功能和场景下的表现不佳。可能的原因是大家的测试环境、使用场景、对模型的期望不同，导致对EXL2的评价存在差异。

趋势与预测

新兴话题：EXL2的问题是否与其他量化类型（如gguf）存在关联，以及如何解决EXL2的质量问题。
潜在影响：如果EXL2的问题被证实且普遍存在，可能会影响其在相关领域（如大语言模型应用、需要特定量化类型的场景等）的使用，促使开发者改进或者用户转向其他替代方案。

详细内容：

标题：关于 EXL2 推理质量问题的热门讨论

在 Reddit 上，一篇关于“EXL2 Inference Quality Issues”的帖子引发了广泛关注。原帖作者详细介绍了自己的硬件配置和采样设置，并对不同模型在特定任务中的表现进行了测试。该帖获得了众多评论和互动。

原帖中，作者使用 2x3090 的硬件，在特定采样设置下对多种模型进行测试，如 bartowski/Qwen2.5-Coder-32B-Instruct-EXL2 、bartowski/Qwen2.5-Coder-32B-Instruct-GGUF Q6_K llama.cpp 、Qwen/Qwen2.5-Coder-32B-Instruct-AWQ vllm 等。结果发现 EXL2 无法生成有效的解决方案，而其他模型表现各异。

讨论焦点主要集中在 EXL2 的表现和质量问题上。有人指出需要更具体说明运行提示的方式和所使用的前端，因为这可能是导致问题的原因，并提供了一个直接调用 Tabby 的 bash 脚本和相关示例。还有人认为不同量化方法下模型表现应相似，但实际并非如此，如 4.65 BPW EXL2 量化在编码方面比 Q4_K_M GGUF 量化差，且在角色扮演中，EXL 重复较多，连贯性差。

也有人提到，虽然理论上模型应在相同设置下表现相近，但实践中发现 exl2 给出的答案比 GGUF 差很多，即使比特率更低。不过，也有人认为 Nemotron 70B 与 EXL2 配合效果不错，且采样格式等因素会产生影响，但 exl2 的量化质量有时确实存在问题。

有人分享自己从 exl2 切换到 ollama 的经历，认为 ollama 虽然速度慢，但更连贯和智能。还有人提到 exllama 可能存在的一些设置问题以及可能的解决方法。

有人表示在角色扮演中，exl2 产生的输出质量低于 gguf，自己已从使用 exl2 转为仅使用 gguf，因为输出质量更重要。

总之，关于 EXL2 的推理质量问题，大家观点不一，存在诸多争议和讨论。究竟是设置问题、量化过程的差异，还是其他因素导致了不同的表现，仍需进一步探讨和研究。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#