直到Llama-3.1模型在GGUF中的RoPE缩放问题解决之前，只需使用这个频率（已测试至80K）

嗨，

如果我错了请纠正我，但上次我检查时，llama-3.1模型的原生RoPE缩放修复尚未合并到llama.cpp中，因此当前的GGUF模型在8K以内是连贯的，超过这个限制就会失效。

然而，该模型保持连贯，并且每次都能在我的“大海捞针”测试中找到针。我测试了高达80K（8B /Q8）的模型。只需使用8000000作为频率基准。 这绝不是一个修复，但它让我非常兴奋。一旦GGUF中的RoPE缩放问题真正得到修复，我们就会有一个具有长上下文大小的好模型。

https://preview.redd.it/eocu8bwh9wed1.png?width=308&format=png&auto=webp&s=c315924cc01f436363f820999ac51102db3e7b22

**编辑：**我可以将整个128K放入我的VRAM中，但测试是使用高达80K的文本完成的。

讨论总结

本次讨论主要围绕Llama-3.1模型的RoPE缩放问题及其临时解决方案。尽管当前GGUF模型在8K以上时会失去一致性，但通过设置频率基准为8000000，模型在高达80K的测试中仍能保持一致性。讨论中涉及了新版Jailbroken模型、VRAM使用、kv缓存模式等多个技术细节，并期待未来RoPE缩放问题得到真正修复后，模型能拥有更长的上下文大小。

主要观点

👍 Llama-3.1模型的RoPE缩放问题尚未解决
- 支持理由：通过设置频率基准8000000，模型在80K测试中保持一致性。
- 反对声音：尚未有官方修复方案。
🔥 设置频率基准8000000可以使模型在80K测试中保持一致性
- 正方观点：该方法在多个测试中表现良好。
- 反方观点：仅为临时解决方案，非官方推荐。
💡 新版Jailbroken Llama-3.1-8B-Instruct模型减少了拒绝率并保持长上下文一致性
- 解释：该模型在实际应用中表现出色。
🚀 使用24VRAM进行测试
- 解释：提供了足够的资源支持模型运行。
🌟 讨论了4位kv缓存模式的可行性及其在100K测试中的潜在表现
- 解释：该模式可能进一步提升模型性能。

金句与有趣评论

“😂 Iory1998：EDIT2: It works on the new Jailbroken Llama-3.1-8B-Instruct, which means now you llama-3.1-8B has less refusal and stays consistent over a long context window.”
- 亮点：展示了新模型的实际应用效果。
“🤔 Ulterior-Motive_：–rope-freq-base 8000000”
- 亮点：提供了具体的解决方案参数。
“👀 Inevitable-Start-653：Dude I keep refreshing their repo for the final code 😔”
- 亮点：反映了用户对官方修复的期待。

情感分析

讨论总体上呈现出积极的技术探讨氛围，用户们对临时解决方案表示认可，并期待官方的最终修复。争议点主要集中在临时解决方案的有效性和官方修复的进度上。

趋势与预测

新兴话题：4位kv缓存模式在100K测试中的表现。
潜在影响：RoPE缩放问题的解决将显著提升模型性能，特别是在长上下文处理能力上。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测