原贴链接

https://github.com/ggerganov/llama.cpp/commit/b5e95468b1676e1e5c9d80d1eeeb26f542a38f42

text
* 在llama转换和推理中添加llama 3.1 rope缩放因子

此提交在转换时生成rope因子,并将它们作为张量添加到生成的模型中。在推理时,这些因子被传递给`ggml_rope_ext` rope操作,改进了上下文窗口超过8192的结果

伙计们,这正在发生

现在就启动量化脚本吧!!


编辑:

我们还没有完成,另一个聊天模板即将到来,用于修复工具调用

但至少这个更改不需要重新量化所有内容

https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct/discussions/53

讨论总结

Reddit用户围绕llama.cpp项目中对llama 3.1 rope scaling factors的支持合并展开了热烈讨论。主要话题包括量化处理、模型更新、工具调用和前端更新。社区成员积极分享他们的测试体验和更新进展,同时也有用户提出了关于rope scaling的具体问题和模型性能影响。整体上,讨论反映了社区对这一技术更新的积极响应和期待。

主要观点

  1. 👍 量化处理
    • 支持理由:noneabove1182已经开始进行70b量化,并计划进行8b量化。
    • 反对声音:无明显反对声音,社区普遍支持。
  2. 🔥 模型更新
    • 正方观点:TyraVex分享了新的imatrix文件的链接,并正在进行70b的量化处理。
    • 反方观点:无明显反对声音,社区普遍支持。
  3. 💡 工具调用和前端更新
    • 解释:新的聊天模板即将发布,用于修复工具调用,前端如LM Studio和ollama需要更新以支持新的rope_freqs tensor。

金句与有趣评论

  1. “😂 noneabove1182:I’ve started the 70b quantization (with the chat template change), after that will do 8b then will rip through the rest of the backlog of 3.1 tunes that have been coming out :D”
    • 亮点:展示了社区成员对技术更新的积极态度和行动力。
  2. “🤔 TyraVex:Currently uploading imatrix here: https://huggingface.co/ThomasBaruzier/Meta-Llama-3.1-8B-Instruct-GGUF
    • 亮点:分享了具体的更新进展,增强了社区的参与感。
  3. “👀 qnixsynapse:I just tested. Feels okay now.”
    • 亮点:简洁地表达了用户对更新效果的正面反馈。

情感分析

讨论的总体情感倾向积极,社区成员对技术更新持支持态度,并对未来的改进充满期待。主要分歧点在于对rope scaling的具体理解和模型文件的兼容性问题,但这些问题并未引发大规模的负面情绪。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括对rope scaling的深入理解和模型文件的兼容性问题。
  • 潜在影响:对相关领域或社会的潜在影响包括提升模型性能和用户体验,以及推动前端工具的更新和优化。