原贴链接

  1. 不要使用高重复惩罚!Open WebUI默认的1.1和Qwen推荐的1.05都会降低模型质量。0或者稍高一点似乎效果更好!(注意:llama.cpp/GGUF不需要这样,修复了tabbyAPI/exllamaV2在张量并行下的使用问题,但对vLLM无论是张量并行还是管道并行都没有帮助)。2. 在补全请求中使用[推荐的推理参数](https://huggingface.co/Qwen/Qwen2.5 - Coder - 32B - Instruct/blob/main/generation_config.json)(在服务器或者UI前端设置),评论中的人反馈像T = 0.1这样的低温度实际上不是问题:|参数|Qwen推荐|Open WebUI默认| |: - |: - |: - | |T|0.7|0.8| |Top_K|20|40| |Top_P|0.8|0.7|3. 使用[高质量的bartowski量化](https://huggingface.co/bartowski/Qwen2.5 - Coder - 32B - GGUF)。我在使用默认推荐的vLLM托管、默认fp16权重和张量并行时,使用稍长的提示和响应得到了非常糟糕的输出。很可能是个bug,在这之前,我宁愿使用llama.cpp+GGUF(吞吐量下降30%),也不愿使用最大吞吐量下的垃圾输出。4. 以‘你是Qwen,由阿里云创建。你是一个有用的助手。’开始你的系统提示,之后可以写任何你想写的内容。看起来没有这第一行模型表现不佳。附言:我没有在llama.cpp中对这些建议进行消融测试(全部使用了,没有尝试排除某些内容),但整体上它们似乎是有效的。在vLLM中,无论如何都没有效果。又及:Bartowski还发布了[EXL2量化](https://huggingface.co/bartowski/Qwen2.5 - Coder - 32B - Instruct - exl2),根据我的测试,质量比vLLM好得多,和GGUF相当。

讨论总结

原帖分享了使用Qwen2.5 - Coder - Instruct不碰壁的一些方法,包括参数推荐等。评论者们主要围绕该模型的参数(如温度、重复惩罚、采样器参数等)、性能(如重复性不高、官方推荐采样器令人失望等)、部署方式(如DeepInfra是较好的部署)等方面进行讨论,整体氛围比较理性,大家从不同的使用场景和角度发表自己的观点。

主要观点

  1. 👍 原帖中推荐的温度/重复惩罚参数可能存在问题
    • 支持理由:有评论者认为推荐的1.05对于可能存在重复的输出过高,还有评论者表示在特定示例中,原帖推荐的温度0.7结果更差,0.1时更好。
    • 反对声音:无
  2. 🔥 官方推荐的采样器令人失望
    • 正方观点:评论者Master - Meal - 77表示自己发现官方推荐的采样器效果不好,分享了自己使用效果好的参数设置。
    • 反方观点:无
  3. 💡 编码模型不建议使用超过1的重复惩罚
    • 解释:有评论者指出对于编码模型,超过1的重复惩罚可能损害性能,如Qwen存在重复问题时使用重复惩罚可能使其性能下降。

金句与有趣评论

  1. “😂 Another thing, I’m surprised they recommend such a high temp/rep penalty for coding?”
    • 亮点:直接表达对模型编码时被推荐高温度/重复惩罚的惊讶,引发对原帖参数推荐的质疑。
  2. “🤔 我尝试了[the one shot three.js spinning globe prompt],温度0.7使其更差。”
    • 亮点:用实际例子说明原帖中温度参数设置不一定适用于所有情况。
  3. “👀 [Master - Meal - 77:FWIW I have found these official recommended samplers to be very disappointing.]”
    • 亮点:明确表达对官方推荐采样器的负面态度。

情感分析

总体情感倾向为中性偏负面。主要分歧点在于原帖中推荐的一些参数(如温度、采样器参数等)是否合理,以及模型本身的一些性能表现(如重复性等)。可能的原因是不同的用户在不同的使用场景下,对模型的需求和期望不同,所以对参数设置和性能的感受也不一样。

趋势与预测

  • 新兴话题:关于ollama版本与bartowski版本的比较可能会引发更多讨论,还有Qwen2.5 - Coder - Instruct的指令模板相关话题。
  • 潜在影响:这些讨论有助于优化Qwen2.5 - Coder - Instruct的使用,对人工智能编码领域的模型优化和推广有一定影响。

详细内容:

标题:探索 Qwen2.5-Coder-Instruct 的最佳使用方式

在 Reddit 上,一篇关于“如何在当下无挫折地使用 Qwen2.5-Coder-Instruct”的帖子引起了广泛关注。此帖获得了众多的点赞和大量的评论。

帖子主要分享了使用 Qwen2.5-Coder-Instruct 的一些关键要点:不使用高重复惩罚;采用推荐的推理参数;使用特定的量化方式;以特定的系统提示开头等。同时提到了一些使用中的问题,比如使用默认推荐的 vLLM 托管和默认的 fp16 权重与张量并行时出现输出不理想的情况。

讨论焦点主要集中在参数设置的效果和不同方法的表现上。有人惊讶于对于编码推荐的高温度和重复惩罚;有人更新了关于 Qwen2.5-Coder-32B generation_config.json的内容,指出其中“Top_K”的差异最为显著;有人尝试了推荐的设置却出现重复问题,即便将重复惩罚提高到 0.7 仍会频繁出现;还有人尝试不同的温度设置,如将温度设为 0.7 时效果更差,而 0.1 效果较好;也有人确认温度较低时质量会提升,自己选定 0.2 效果不错。

对于各种设置和模型的表现,大家观点不一。有人认为官方推荐的采样器令人失望,而采用自己的参数设置效果惊人;有人指出使用 Exllamav2 推断该模型时难以找到参数设置的最佳点,且重复性不高;有人表示 DeepInfra 的默认参数表现出色;还有人认为不应在编码模型中使用过高的重复惩罚。

总之,关于 Qwen2.5-Coder-Instruct 的使用方式,大家仍在不断探索和交流,以寻求更优的方案。