有人知道适用于QwQ - 32B的好的草稿模型吗？我一直在努力寻找小于1.5B的好模型，但到目前为止还没有找到！

讨论总结

原帖寻求QwQ - 32B小于1.5B的草稿模型，有评论者提供了一些模型链接如QwQ - 0.5B模型，但有人尝试后发现效果不佳、速度下降等问题，也有其他评论者针对原问题给出如使用extreme quant作为草稿模型的建议、相关的性能提升参数、不同平台上的表现等内容，还有一些推荐其他模型的情况，但也遭到了反驳。总体氛围比较务实，大家围绕着模型的寻找和性能展开讨论。

主要观点

👍 难以找到QwQ - 32B的草稿模型，仅找到预览版草稿
- 支持理由：原帖作者寻找无果，有评论者表示只看到预览版草稿。
- 反对声音：无
🔥 有一些QwQ - 0.5B的模型可能是QwQ - 32B的最终版本
- 正方观点：有评论者给出QwQ - 0.5B模型链接并认为是最终版本。
- 反方观点：有人尝试后发现效果不好。
💡 部分人尝试后发现模型效果不好，速度降低
- 解释：如有人使用后速度从16 tk/s降到6 tk/s。
💡 在不同平台使用模型性能不同
- 解释：如lm - studio性能减半，llama.cpp性能提升30 - 70%。
💡 可以尝试用extreme quant作为QwQ - 32B的草稿模型
- 解释：有评论者给出这个建议并附上相关reddit链接。

金句与有趣评论

“😂 ThunderousHazard：~~There is on huggingface a draft for QwQ Preview only unfortunately, none available afaik for latest QwQ…~~”
- 亮点：表达了在huggingface上找不到最新QwQ草稿模型的无奈。
“🤔 ipechman：Just tried it, it’s pretty bad… went from 16 tk/s to 6 tk/s”
- 亮点：直接给出尝试模型后的性能数据，证明效果不好。
“👀 knvngy：When using lm - studio, I got half the performance. When using llama.cpp I got \\~30 - 70% better performance.”
- 亮点：清晰对比不同平台的性能差异。

情感分析

总体情感倾向比较中性。主要分歧点在于某些模型是否适合作为QwQ - 32B的草稿模型，以及不同平台上模型的性能表现。可能的原因是大家对模型的要求和使用场景不同，有的人更注重速度，有的人更看重性能的稳定性等。

趋势与预测

新兴话题：extreme quant作为草稿模型可能会引发后续讨论。
潜在影响：如果找到合适的草稿模型，可能会提高QwQ - 32B相关应用的开发效率，对使用QwQ - 32B模型的相关领域有积极影响。

详细内容：

标题：探寻 QwQ-32B 优质草案模型的热门讨论

在 Reddit 上，一则关于“QwQ-32B 草案模型”的帖子引发了众多关注。原帖中，发帖者表示一直在寻找小于 1.5b 的优质草案模型，但至今未能如愿。该帖子获得了大量的点赞和评论，引发了广泛的讨论。

讨论的焦点主要集中在不同用户分享的各种经验、观点以及提供的相关链接。有人提到可以参考其他评论中提到的草案模型。有用户尝试后反馈效果不佳，比如从 16 tk/s 降至 6 tk/s。还有用户指出存在由不同量化器基于相同 HF 格式模型制作的 gguf，功能上与其他人制作的 GGUF 量化模型应无太大差异。

有人分享个人经历，比如使用 lm - studio 时性能减半，而使用 llama.cpp 能获得约 30 - 70%更好的性能。也有用户表示，在无草案时约 10.3t/s，使用草案后约为 9.1t/s。经过一番调整，有人成功将性能提升到 20 tk/s。

有趣的是，有人感谢他人提供的信息，还有人认为可以使用 exl2，转换相对快速且能提升速度。同时，也有不少用户给出见解和观点，如有人认为 Qwen2.5 1.5b 不是好选择，有人尝试后表示其速度相同甚至更差，无法很好地生成 QwQ 本身会选择的令牌，还有人认为它们不兼容。

这场讨论中，大家对于 QwQ-32B 草案模型的性能、适用性以及优化方法各抒己见。虽然存在争议，但也达成了一些共识，比如对于某些模型的效果不佳有共同的认识。而一些独特的观点，如通过特定设置提升性能，为讨论增添了丰富性。

总之，这场关于 QwQ-32B 草案模型的讨论，充分展现了大家在探索过程中的思考和尝试，为寻找更优质的草案模型提供了多样的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#