帖子仅包含一个图片链接（https://llminfo.image.fangd123.cn/images/77rco6vfipne1.png!/format/webp），无实质内容可翻译

讨论总结

这个讨论是由QWQ在排行榜中得分低引发的。大家主要从基准测试、QwQ模型本身特性以及排行榜的可靠性等方面展开讨论。多数观点认为基准测试和排行榜存在诸多问题，如不能准确反映模型真实情况，而QwQ模型本身也有独特的性质，如对参数和提示敏感、需要大量时间/标记来提供好答案等。整个讨论氛围对排行榜多为否定态度。

主要观点

👍 基准分数低可能是基准有问题而非模型
- 支持理由：看到模型实际运行情况后得出的结论。
- 反对声音：无。
🔥 排行榜自llama 3发布后就已损坏，目前毫无价值
- 正方观点：排行榜不稳定、不可靠，模型分数变化不合理，不能反映真实情况。
- 反方观点：无。
💡 QwQ模型提供服务较难，需要大量时间/标记
- 解释：与其他模型不同，QwQ需要大量的时间/标记（平均10k个，而多数基准测试在5k左右就截止或设置时间限制以避免循环）来给出好答案。

金句与有趣评论

“😂 frivolousfidget: Honestly at this point after seeing this model in action, if the benchmark score is low, the benchmark is bad not the model.”
- 亮点：直接指出在看到模型实际表现后，低基准分可能是基准本身的问题而非模型的问题。
“🤔 ortegaalfredo：QwQ is a difficult model to serve because unlike other models, QwQ need an enormous amount of time/tokens to make a good answer.”
- 亮点：阐述了QwQ模型提供服务困难的原因在于需要大量时间/标记。
“👀 pigeon57434: oh my god its been ages since i saw the Open LLM Leaderboard i stopped using it since its absolutely shit please never take it seriously ever again”
- 亮点：强烈表达对Open LLM Leaderboard的否定态度。

情感分析

总体情感倾向为对排行榜持否定态度。主要分歧点在于排行榜是否能准确反映模型的真实性能。可能的原因是大家在实际使用模型过程中发现排行榜分数与模型实际表现不符，如QwQ在逻辑、数学和编码方面表现优秀，但在排行榜上却得分低，使得大家对排行榜的信任度降低。

趋势与预测

新兴话题：构建更好的排行榜或者寻找更可靠的评估方式。
潜在影响：如果能够构建更好的排行榜或者评估方式，将有助于更准确地评估模型，对模型的发展和用户选择模型有积极的引导作用。

详细内容：

标题：Reddit 热议 QWQ 在排行榜上得分低的原因

在 Reddit 上，一个题为“QWQ low score in Leaderboard, what happened?”的帖子引起了广泛关注，获得了众多点赞和大量评论。该帖主要探讨了 QWQ 在排行榜上得分低的情况，引发了关于模型表现、基准测试设置、参数调整等多方面的热烈讨论。

讨论焦点与观点分析：有人指出存在标记的问题，可能影响了基准测试结果。还有人认为基准测试所使用的采样器设置对结果有巨大影响。一些用户分享了自己使用 QWQ 的个人经历，比如有人提到在处理 QWQ 时，为了避免循环，会降低其质量或限制其思考，然而这会大幅降低输出质量。不少用户发表了见解和观点，比如认为如果 QWQ 的基准分数低，可能是基准有问题而非模型本身。有人提到 QWQ 是一个较难服务的模型，平均需要 10k 个令牌来生成良好答案，而多数基准测试有截断限制。也有人认为某些基准测试不稳定且不可靠，不能反映真实的使用体验。一位用户通过数学问题测试了 QWQ，发现其先是快速给出答案，随后又出现漫无边际的回答，最终得出更差的答案。还有用户探讨了如何让 QWQ 减少思考、使用何种提示工程等问题。

总的来说，关于 QWQ 在排行榜上得分低的原因众说纷纭，有人认为是基准测试的问题，有人认为是模型自身的特点和参数设置所致。但无论如何，这次讨论都展现了大家对这一模型的关注和深入思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#