原贴链接

我一直在测试两个AI模型，Qwen2.5（32b和72b版本）和Nemotron 70b。我最初的测试表明，在广泛的常识性问题上，Nemotron 70b的表现优于Qwen 72b。看到它们能力上的差异很有趣。不过，有一件事我还没有测试：在与编码相关的任务上，Nemotron 70b与Qwen2.5 Coder（32b）相比如何。这是我的下一个测试内容。由于我找不到很多关于这些模型之间的直接比较，我很想听听其他人的意见：你们是否也有类似的经历，即Nemotron 70b胜过Qwen 72b？或者你们看到的情况正好相反？

讨论总结

原帖作者对Nemotron 70b和Qwen2.5 72b进行了初步测试，发现Nemotron 70b在很多常识问题上表现优于Qwen2.5 72b，但未测试编码相关任务。评论者们从不同角度展开讨论，包括分享自己的测试结果、质疑原帖测试结果、关注测试时的温度设置、对LLMs通用知识的看法以及对Qwen模型发展方向的观点等，整体氛围较为理性，但也存在争议点。

主要观点

👍 Nemotron在一般用例、遵循提示、角色扮演和部分STEM相关任务表现更好。
- 支持理由：评论者自己在本地和通过API在自身用例环境中测试得出。
- 反对声音：无。
🔥 质疑原帖作者关于Qwen2.5模型测试结果的准确性。
- 正方观点：评论者给出自己测试Qwen2.5 - 14B - Instruct在推理方面以及Qwen2.5 - Coder - 32B - Instruct在编码方面的数据。
- 反方观点：原帖作者未进行反驳，无明显反方观点。
💡 关注测试AI模型时的温度设置。
- 不同模型间相同温度设置不一定可比，原帖作者在默认温度0.7下进行测试，建议调整温度重新测试。
💡 不理解人们对LLMs具备通用知识的要求。
- 期望LLMs能在RAG应用中检索和使用知识并被评估，而不是本身具备通用知识。
💡 Qwen的通用知识少于llama且发展方向是在自毁前程。
- 认为Qwen为了支持STEM和编码不断舍弃通用知识。

金句与有趣评论

“😂 I have tested them in my own use case environment, both locally and via API and Nemotron was a bit better overall.”
- 亮点：提供了自己的测试情况作为支持观点的依据。
“🤔 Qwen2.5 - 14B - Instruct Q8_0 local 27 % in reasoning and QwQ 20%? Hard to believe…. from my test is comparable to o1 mini in reasoning / math… is something wrong with your tests. Qwen2.5 - 14 is not even in the same room with QwQ.”
- 亮点：用自己的测试数据来质疑原帖作者的测试结果。
“👀 Out of curiosity, are you testing at zero temperature?”
- 亮点：引出了关于测试温度这个新的讨论点。
“🤔 我不理解为什么人们想要LLMs具备通用知识。”
- 亮点：提出与众不同的观点，引发新的思考方向。
“😉 Qwen has less general knowledge than llama.”
- 亮点：比较了Qwen和llama的通用知识情况。

情感分析

总体情感倾向比较理性客观。主要分歧点在于原帖作者关于Qwen2.5模型的测试结果是否准确，可能的原因是不同的测试环境、测试用例以及测试基准的差异。

趋势与预测

新兴话题：关于在不同温度设置下重新测试模型的讨论可能会继续，对Qwen模型知识构成及发展方向的探讨可能深入。
潜在影响：对AI模型的客观测试标准的制定和完善可能有推动作用，影响人们对不同AI模型能力的评估和选择。

详细内容：

《AI 模型 Nemotron 70b 与 Qwen2.5 72b 的比较引发热烈讨论》

近日，一则关于比较 Nemotron 70b 与 Qwen2.5 72b 这两个 AI 模型的帖子在 Reddit 上引起了广泛关注。该帖子作者表示，在一系列的一般知识问题测试中，Nemotron 70b 表现更优，还未测试 Nemotron 70b 在编码相关任务上与 Qwen2.5 Coder（32b）的对比情况，并希望听听其他人的经验和看法。此帖获得了众多回复和大量讨论。

在讨论中，有人表示在自己的使用环境中（本地和通过 API）对它们进行了测试，总体上 Nemotron 略胜一筹。在一般用例、遵循提示、角色扮演方面表现更好，在与 STEM 相关的任务中也略胜一筹，但在编码相关任务中稍弱。在推理和逻辑方面，这两个模型相互比较不相上下。

也有人认为看到 Qwen 排名如此低有些可疑，质疑测试的准确性。比如有人说：“Qwen2.5-14B-Instruct Q8_0 local 27 %\n\nin reasoning\n\nand QwQ 20%?\n\nHard to believe…. from my test is comparable to o1 mini in reasoning / math… is something wrong with your tests. Qwen2.5-14 is not even in the same room with QwQ.\n\nORRRR coding\n\nmistral-nemo-12b-instruct 65%? WOT?\n\nQwen2.5-Coder-32B-Instruct Q4_K_M local 55%?”

还有人讨论了测试时的温度设置问题，有人建议对于编码相关问题使用更低的温度。

对于为何要让 LLMs 具备一般知识，也有不同看法。有人不理解为什么人们希望 LLMs 有一般知识，认为应更关注其在 RAG 应用中的知识检索和使用能力。

此次讨论的核心问题在于：Nemotron 70b 与 Qwen2.5 72b 到底谁更优，以及测试的准确性和条件设置对结果的影响。不同的观点和经验分享，让这场关于 AI 模型的讨论更加丰富和深入。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#