原贴链接

大家好,

我目前正在运行EXL2版本的Midnight Miqu v1.5,并注意到随着接近上下文限制,输出质量往往会退化并变得更差。即使在16K时,随着我接近更高的上下文,输出变得越来越不详细、不描述性,并且在质量上普遍较差。

我知道这个特定的模型理论上能够原生支持高达32K的上下文,这可能只是我个人采样器的问题。但我还是想提出这个问题,看看是否有人有类似的经历,以及他们可能会推荐什么解决方案。

是否有任何特定的原则会导致输出质量随着上下文达到设定限制而自然退化?

如果没有,我倾向于认为我的采样器设置可能是问题所在,并且很乐意听取任何关于这方面潜在改进的意见。

我目前正在运行Min-P为0.05,温度为1.53。我还没有尝试过二次/平滑采样。我的重复惩罚为1.2,我知道这相当高。也许过高的重复惩罚本质上消除了许多在上下文窗口中之前使用过的可能的标记,导致相应的详细度下降。

任何和所有的意见都将非常感激。谢谢。

讨论总结

本次讨论主要围绕模型输出质量随着上下文增加而下降的问题展开。参与者们分享了各自在使用不同模型(如EXL2量化Midnight Miqu v1.5、Llama 3.1等)时的经验,讨论了可能的原因,包括个人采样器设置、上下文长度限制、重复惩罚参数等。同时,也有用户提供了关于新采样器(如XTC和DRY)的建议,以及调整温度和Min-P等参数的合适范围。总体上,讨论涉及模型性能、上下文长度、参数调整等多个方面,旨在寻求提高模型输出质量的解决方案。

主要观点

  1. 👍 所有模型在达到上下文限制时,输出质量都会下降
    • 支持理由:这与人类记忆的局限性类似,未来可能会有技术解决这一问题。
    • 反对声音:无
  2. 🔥 大多数模型在处理更高上下文时会失去准确性
    • 正方观点:模型难以在大量信息中找到相关信息。
    • 反方观点:无
  3. 💡 使用新的采样器XTC和DRY可以提高输出质量
    • 解释:避免使用高温度或旧的重复惩罚方法,尝试更现代的采样器。
  4. 👍 调整重复惩罚参数可能有助于改善输出质量
    • 支持理由:高重复惩罚可能导致许多先前使用的标记被排除,从而减少详细性。
    • 反对声音:无
  5. 🔥 温度设置为1.0可以保持模型的专注和可靠性
    • 正方观点:温度设置为1.0可以保持模型的专注和可靠性。
    • 反方观点:无

金句与有趣评论

  1. “😂 Yes, this is true for every single model.”
    • 亮点:强调了模型输出质量下降的普遍性。
  2. “🤔 Most models lose accuracy at higher contexts - they have trouble finding the relevant info.”
    • 亮点:指出了模型在处理高上下文时的困难。
  3. “👀 Results using a temperature with a whole number (>1) are going to be degraded.”
    • 亮点:解释了高温度值对模型输出的负面影响。

情感分析

讨论的总体情感倾向较为中立,主要集中在技术讨论和寻求解决方案上。主要分歧点在于模型输出质量下降的原因,以及如何通过调整参数和采样器来改善这一问题。可能的原因包括个人采样器设置、上下文长度限制、重复惩罚参数等。

趋势与预测

  • 新兴话题:新采样器(如XTC和DRY)的应用和效果。
  • 潜在影响:通过调整参数和采样器,可能显著提高模型在长上下文下的输出质量,从而提升模型在实际应用中的性能。

详细内容:

标题:模型输出会随上下文增加而天然降级吗?

在 Reddit 上,一则题为“Does Model Output Inherently Degrade as Context Increases?”的帖子引发了热烈讨论。该帖作者表示自己在运行 EXL2 quant of Midnight Miqu v1.5 时,发现随着接近上下文限制,输出质量会下降,即便理论上该模型原生支持高达 32K 上下文。作者想知道是否有人有类似经历以及可能的解决方案,并对输出质量随上下文达到设定限制而降级的原因提出了疑问,还提到了自己当前的一些采样器设置。此帖获得了众多关注,评论数众多,主要的讨论方向集中在模型输出质量降级的原因、不同模型在这方面的表现以及相应的解决办法。

讨论的焦点观点众多。有人认为这对每个模型都是如此,就像人的记忆容量有限一样,模型在处理过多信息时也容易出错。也有人指出,将固定的上下文量与人类记忆进行类比存在一定局限性,因为生物体能够动态地实时权衡不同信息。还有人提到不同模型在更高上下文时的准确性和输出会下降,如 Llama 3.1 在 128k 时表现不佳。有人分享了自己在处理约 60k 令牌的上下文时,关闭 8 位缓存能让输出保持相对连贯的经验。

有用户认为,某些微调模型在较长上下文时能力下降,是因为训练时的上下文较短。还有人建议尝试调整采样器设置,如降低温度和重复惩罚,启用 DRY 采样等。也有人提到 Qwen2 72B 原生训练在 32K 且表现不错。

总之,从这些讨论可以看出,模型在实际应用中随着上下文增加往往会出现性能下降的情况,但通过调整设置和选择合适的模型,或许能够改善这一问题。