原贴链接

嗨,

如果我错了请纠正我,但上次我检查时,llama-3.1模型的原生RoPE缩放修复尚未合并到llama.cpp中,因此当前的GGUF模型在8K以内是连贯的,超过这个限制就会失效。

然而,该模型保持连贯,并且每次都能在我的“大海捞针”测试中找到针。我测试了高达80K(8B /Q8)的模型。只需使用8000000作为频率基准。 这绝不是一个修复,但它让我非常兴奋。一旦GGUF中的RoPE缩放问题真正得到修复,我们就会有一个具有长上下文大小的好模型。

https://preview.redd.it/eocu8bwh9wed1.png?width=308&format=png&auto=webp&s=c315924cc01f436363f820999ac51102db3e7b22

**编辑:**我可以将整个128K放入我的VRAM中,但测试是使用高达80K的文本完成的。

讨论总结

本次讨论主要围绕Llama-3.1模型的RoPE缩放问题及其临时解决方案。尽管当前GGUF模型在8K以上时会失去一致性,但通过设置频率基准为8000000,模型在高达80K的测试中仍能保持一致性。讨论中涉及了新版Jailbroken模型、VRAM使用、kv缓存模式等多个技术细节,并期待未来RoPE缩放问题得到真正修复后,模型能拥有更长的上下文大小。

主要观点

  1. 👍 Llama-3.1模型的RoPE缩放问题尚未解决
    • 支持理由:通过设置频率基准8000000,模型在80K测试中保持一致性。
    • 反对声音:尚未有官方修复方案。
  2. 🔥 设置频率基准8000000可以使模型在80K测试中保持一致性
    • 正方观点:该方法在多个测试中表现良好。
    • 反方观点:仅为临时解决方案,非官方推荐。
  3. 💡 新版Jailbroken Llama-3.1-8B-Instruct模型减少了拒绝率并保持长上下文一致性
    • 解释:该模型在实际应用中表现出色。
  4. 🚀 使用24VRAM进行测试
    • 解释:提供了足够的资源支持模型运行。
  5. 🌟 讨论了4位kv缓存模式的可行性及其在100K测试中的潜在表现
    • 解释:该模式可能进一步提升模型性能。

金句与有趣评论

  1. “😂 Iory1998:EDIT2: It works on the new Jailbroken Llama-3.1-8B-Instruct, which means now you llama-3.1-8B has less refusal and stays consistent over a long context window.”
    • 亮点:展示了新模型的实际应用效果。
  2. “🤔 Ulterior-Motive_:–rope-freq-base 8000000”
    • 亮点:提供了具体的解决方案参数。
  3. “👀 Inevitable-Start-653:Dude I keep refreshing their repo for the final code 😔”
    • 亮点:反映了用户对官方修复的期待。

情感分析

讨论总体上呈现出积极的技术探讨氛围,用户们对临时解决方案表示认可,并期待官方的最终修复。争议点主要集中在临时解决方案的有效性和官方修复的进度上。

趋势与预测

  • 新兴话题:4位kv缓存模式在100K测试中的表现。
  • 潜在影响:RoPE缩放问题的解决将显著提升模型性能,特别是在长上下文处理能力上。