大家好,
我一直在使用元数据对几个模型进行基准测试(实体提取、摘要等)。我正在寻找一个在质量/准确性和速度之间取得良好平衡的模型,因为我选择的模型将被集成到为客户开发的产品中。
在测试了各种模型和量化后,我将其缩小到这两个顶级竞争者,我在RTX 3090 24GB上进行了测试:
- [22B] Mistral-Small-Instruct-2409.Q4_K_M 大小:13.34 GB 速度:45.10 tok/秒
- [14B] Qwen2.5-14B-Instruct-Q4_K_M 大小:8.99 GB 速度:51.99 tok/秒
目前,我倾向于Mistral-Small-Instruct,基于我对它在大小和性能之间平衡的理解。我很想听听你们的想法或任何使用过这两个模型的人的见解。你会选择哪一个,特别是在速度和准确性之间的权衡方面?
我测试的模型:
- [14B] Qwen/Qwen2.5-14B-Instruct-GGUF/qwen2.5-14b-instruct-q4_k_m-00001-of-00003.gguf 大小:8.99 GB,速度:51.99 tok/秒
- [14B] lmstudio-community/Qwen2.5-14B-Instruct-GGUF/Qwen2.5-14B-Instruct-Q6_K.gguf 大小:12.12 GB,速度:44.36 tok/秒
- [32B] Qwen/Qwen2.5-32B-Instruct-GGUF/qwen2.5-32b-instruct-q4_k_m-00001-of-00005.gguf 大小:19.85 GB,速度:27.76 tok/秒
- [32B] Qwen/Qwen2.5-32B-Instruct-GGUF/qwen2.5-32b-instruct-q3_k_m-00001-of-00005.gguf 大小:15.94 GB,速度:24.69 tok/秒
- [32B] Qwen/Qwen2.5-32B-Instruct-GGUF/qwen2.5-32b-instruct-q2_k-00001-of-00004.gguf 大小:12.31 GB,速度:29.35 tok/秒
- [12B] lmstudio-community/Mistral-Nemo-Instruct-2407-GGUF/Mistral-Nemo-Instruct-2407-Q4_K_M.gguf 大小:7.48 GB,速度:65.19 tok/秒(虽然我发现它会添加幻觉并且不遵循指令)
- [12B] QuantFactory/Mistral-Nemo-Instruct-2407-GGUF/Mistral-Nemo-Instruct-2407.Q8_0 大小:12.27 GB,速度:47.98 tok/秒
- [22B] QuantFactory/Mistral-Small-Instruct-2409-GGUF/Mistral-Small-Instruct-2409.Q4_K_M.gguf 大小:13.34 GB,速度:45.10 tok/秒
感谢任何反馈或指导!
提前感谢大家的帮助!
讨论总结
本次讨论主要围绕Mistral-Small-Instruct-2409和Qwen2.5-14B-Instruct两个模型的选择展开。讨论者们从多个角度进行了分析,包括模型的性能、速度、审查问题、许可证限制以及实际应用效果。许多用户分享了自己的使用经验和设置参数,提供了宝贵的见解。讨论中还涉及了其他模型如Gemma2:27b和34B AWQ的推荐,以及加速技术和量化方法的讨论。整体氛围较为专业,讨论者们提供了详细的比较和分析,帮助发帖者做出更明智的选择。
主要观点
👍 Mistral-Small-Instruct-2409在详细总结和世界知识方面表现更优
- 支持理由:YearZero指出Mistral-Small在详细总结方面表现更优,能够包含更多关键点,并且在处理特定信息时错误较少。
- 反对声音:无明显反对声音,但有用户提到Qwen2.5在推理问题上略胜一筹。
🔥 Qwen2.5-14B-Instruct在推理和角色扮演方面表现更好
- 正方观点:YearZero认为Qwen2.5在推理问题上略胜一筹,并且在角色扮演和日常对话中表现更自然。
- 反方观点:无明显反方观点,但有用户提到Mistral-Small在详细总结和世界知识方面表现更优。
💡 Mistral-Small-Instruct-2409可能更少受到审查
- 解释:Lissanro提到Mistral Small可能更少受到审查,适合需要无审查输出的场景。
🚀 Qwen2.5-14B-Instruct在速度和量化敏感性方面表现更好
- 解释:YearZero提到Qwen2.5由于体积较小,速度略快,并且在4K_M量化级别下表现不佳,建议使用5K_M量化级别。
📜 许可证问题对商业应用至关重要
- 解释:SheffyP指出Mistral-Small-Instruct-2409的许可证仅限于研究用途,不适合商业产品或服务,建议在选择模型时考虑许可证的限制。
金句与有趣评论
“😂 Lissanro:Mistral Small is a better choice - not only it has more parameters than Qwen2.5-14B, but I think it may be less censored too.”
- 亮点:强调了Mistral-Small在参数和审查方面的优势。
“🤔 YearZero:I found Mistral-Small to be much better at detailed summarizing.”
- 亮点:指出了Mistral-Small在详细总结方面的优势。
“👀 SomeOddCodeGuy:Qwen 14b is Apache 2.0 license, while Mistral Small has a restrictive license.”
- 亮点:强调了Qwen2.5在许可证方面的优势。
“🚀 Downtown-Case-1755:Um, if you’re on a 3090, try a 34B AWQ on VLLM, or a 34B exl2 in tabbyAPI.”
- 亮点:推荐了其他模型和加速技术。
“📜 SheffyP:如果这是为了商业产品或服务,那么你必须考虑Mistral许可证的限制,因为它仅限于研究用途。”
- 亮点:强调了许可证问题对商业应用的重要性。
情感分析
讨论的总体情感倾向较为中立,讨论者们提供了详细的比较和分析,帮助发帖者做出更明智的选择。主要分歧点在于模型的选择,特别是Mistral-Small-Instruct-2409和Qwen2.5-14B-Instruct之间的比较。可能的原因包括个人使用经验、设置参数、许可证限制以及实际应用效果的不同。
趋势与预测
- 新兴话题:可能引发后续讨论的新观点包括其他模型如Gemma2:27b和34B AWQ的推荐,以及加速技术和量化方法的讨论。
- 潜在影响:对相关领域或社会的潜在影响包括模型选择对性能、速度、审查、许可证和实际应用效果的影响,以及这些因素对商业产品或服务的潜在影响。
详细内容:
《LLM 模型选择大讨论:Mistral-Small-Instruct-2409 与 Qwen2.5-14B-Instruct 谁更优?》
在 Reddit 上,有一篇关于模型选择的热门讨论引起了大家的广泛关注。帖子的作者一直在为自己的 LLM 任务(如实体提取、总结等)对多个模型进行基准测试,试图在质量/准确性和速度之间找到平衡,因为所选模型将集成到为客户提供的产品中。作者将选择范围缩小到了 Mistral-Small-Instruct-2409 和 Qwen2.5-14B-Instruct 这两个模型,并在 RTX 3090 24GB 上进行了测试。该帖子获得了众多的点赞和大量的评论。
讨论焦点主要集中在这两个模型的性能、特点以及适用场景等方面。有人认为 Mistral Small 是更好的选择,不仅参数更多,可能受到的审查也更少。有人指出对于 Mistral Large 2,与其他模型相比性能差异超过两倍。还有人表示 Mistral 更聪明,尤其在写作方面。
有人分享道:“我会选择 Qwen,有两个原因:一是可以在 q8 下运行 14b 并拥有不错的上下文,同时在显卡上还能有一些剩余空间;二是 Qwen 14b 是 Apache 2.0 许可证,而 Mistral Small 有较严格的许可证。”
也有人提到:“我对这两个模型进行了大量的分析,发现 Mistral-Small 在详细总结方面表现更好,包含更多关键点;在推理方面两者相对持平,Qwen2.5 14b 稍有优势;Mistral-small 受到的审查更少,拥有更多世界知识和更少的错误;Qwen 由于尺寸较小所以速度更快;Qwen 在角色扮演或随意交谈方面表现更好,而 Mistral 在模拟人类对话时显得有些生硬。”
在这场讨论中,大家各抒己见,有人倾向于 Mistral,有人则看好 Qwen。究竟哪个模型更适合,还需要根据具体的使用场景和需求来决定。
感谢您的耐心阅读!来选个表情,或者留个评论吧!