原贴链接

该帖仅提供了一个网址https://llminfo.image.fangd123.cn/images/pgf54p7ddihe1.png!/format/webp，无实质可翻译内容

讨论总结

这是一个关于lineage - bench基准测试结果更新了最近发布模型的讨论。大家主要讨论了模型测试中的各种问题，包括成本、模型分数的高低及其原因、模型运行中的限制、结果的真实性等，参与者们分享观点、提问解答，讨论氛围较为理性专业。

主要观点

👍 使用o1模型做基准测试且成本为165美元
- 支持理由：评论者亲测并提及单次运行的成本
- 反对声音：无
🔥 R1蒸馏模型结果不佳是多因素导致
- 正方观点：存在模型进入无限循环、提供商限制输出令牌数、模型无法按要求输出格式等因素
- 反方观点：无
💡 对32b蒸馏分数高表示惊讶
- 解释：与存在问题的预期相比，其分数较高
💡 对Sonnet分数低感到意外
- 解释：多数基准测试中Sonnet排名第一，此次却分数很低
💡 Sonnet分数低是因为总是选错答案
- 解释：总是选择错误的“以上都不正确”选项

金句与有趣评论

“😂 我使用了默认（中等）推理努力设置的o1模型。一次o1模型基准测试运行成本为165美元（我可怜的钱包）。”
- 亮点：以幽默的方式表达o1模型测试成本高
“🤔 insane the 32b distill scores so high even with the issues you mentioned”
- 亮点：表达对32b蒸馏分数高的惊讶之情
“👀 The reason is very simple - Claude Sonnet just loves to select "None of the above is correct." option which is never a correct answer.”
- 亮点：简洁地解释了Sonnet分数低的原因

情感分析

总体情感倾向比较中性客观。主要分歧点较少，部分在于对模型分数高低的看法与预期不同。可能的原因是不同参与者基于自己的知识和以往经验对模型有不同的理解和期望。

趋势与预测

新兴话题：探索在无2000上下文限制的平台运行32b蒸馏。
潜在影响：有助于深入了解模型在不同条件下的性能，对模型优化、选择以及相关领域的研究发展有一定的推动作用。

详细内容：

标题：Lineage-Bench 基准测试结果更新引发的热门讨论

最近，关于“lineage-bench 基准测试结果更新与最近发布的模型”的话题在 Reddit 上引起了广泛关注。该帖子获得了众多点赞和大量评论。帖子中主要探讨了新模型在基准测试中的表现及相关问题。

讨论焦点主要集中在以下几个方面：有人指出 R1 蒸馏模型表现不佳是由多种因素造成的，比如模型经常进入无限循环，OpenRouter 上的“Together”提供者将输出限制在 2k 令牌，这对推理模型来说太低，而且模型无法遵循所需的输出格式。有人分享了自己使用 o1 模型进行基准测试的个人经历，称单次 o1 模型基准运行花费高达 165 美元。关于模型的得分情况，有人认为尽管存在一些问题，但 32b 蒸馏模型的得分如此之高令人惊讶，同时也对 Claude Sonnet 模型的表现进行了分析。

有用户分享道：“我使用 o1 模型，采用默认（中等）推理努力设置。一次 o1 模型基准运行就花费了 165 美元（我的钱包好可怜）。”

有人提出：“Did you run the tests （for the r1 models） at the recommended temperature of 0.7 or so and still got loops? Or ran each test multiple times? If you run at temperature 0 and use llama.cpp / ollama then you can set dry_multiplier 0.1 and dry_allowed_length 4 to prevent those loops while getting the most probable result. This has unfortunately [not been merged to vllm] （https://github.com/vllm-project/vllm/pull/11368） yet.”

关于 Claude Sonnet 模型，有人说道：“The reason is very simple - Claude Sonnet just loves to select ‘None of the above is correct.’ option which is never a correct answer. For lineage-8 it selected this option 30/200 times, for lineage-16 122/200 times, for lineage-32 192/200 times, for lineage-64 199/200 times. This answer option is a trap and Claude fell for it.”

在讨论中，大家对模型的性能、成本以及应用场景等方面存在一定的共识，认为需要进一步优化和改进。同时，一些独特的观点也为讨论增添了丰富性，比如有人认为 Claude Sonnet 在解决简单问题时表现出色，但在处理复杂的多变量逻辑推理问题时表现不佳。

总的来说，这次关于 lineage-bench 基准测试结果更新的讨论，为相关领域的研究和发展提供了有价值的参考和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#