原贴链接

我一直在测试两个AI模型,Qwen2.5(32b和72b版本)和Nemotron 70b。我最初的测试表明,在广泛的常识性问题上,Nemotron 70b的表现优于Qwen 72b。看到它们能力上的差异很有趣。不过,有一件事我还没有测试:在与编码相关的任务上,Nemotron 70b与Qwen2.5 Coder(32b)相比如何。这是我的下一个测试内容。由于我找不到很多关于这些模型之间的直接比较,我很想听听其他人的意见:你们是否也有类似的经历,即Nemotron 70b胜过Qwen 72b?或者你们看到的情况正好相反?

讨论总结

原帖作者对Nemotron 70b和Qwen2.5 72b进行了初步测试,发现Nemotron 70b在很多常识问题上表现优于Qwen2.5 72b,但未测试编码相关任务。评论者们从不同角度展开讨论,包括分享自己的测试结果、质疑原帖测试结果、关注测试时的温度设置、对LLMs通用知识的看法以及对Qwen模型发展方向的观点等,整体氛围较为理性,但也存在争议点。

主要观点

  1. 👍 Nemotron在一般用例、遵循提示、角色扮演和部分STEM相关任务表现更好。
    • 支持理由:评论者自己在本地和通过API在自身用例环境中测试得出。
    • 反对声音:无。
  2. 🔥 质疑原帖作者关于Qwen2.5模型测试结果的准确性。
    • 正方观点:评论者给出自己测试Qwen2.5 - 14B - Instruct在推理方面以及Qwen2.5 - Coder - 32B - Instruct在编码方面的数据。
    • 反方观点:原帖作者未进行反驳,无明显反方观点。
  3. 💡 关注测试AI模型时的温度设置。
    • 不同模型间相同温度设置不一定可比,原帖作者在默认温度0.7下进行测试,建议调整温度重新测试。
  4. 💡 不理解人们对LLMs具备通用知识的要求。
    • 期望LLMs能在RAG应用中检索和使用知识并被评估,而不是本身具备通用知识。
  5. 💡 Qwen的通用知识少于llama且发展方向是在自毁前程。
    • 认为Qwen为了支持STEM和编码不断舍弃通用知识。

金句与有趣评论

  1. “😂 I have tested them in my own use case environment, both locally and via API and Nemotron was a bit better overall.”
    • 亮点:提供了自己的测试情况作为支持观点的依据。
  2. “🤔 Qwen2.5 - 14B - Instruct Q8_0 local 27 % in reasoning and QwQ 20%? Hard to believe…. from my test is comparable to o1 mini in reasoning / math… is something wrong with your tests. Qwen2.5 - 14 is not even in the same room with QwQ.”
    • 亮点:用自己的测试数据来质疑原帖作者的测试结果。
  3. “👀 Out of curiosity, are you testing at zero temperature?”
    • 亮点:引出了关于测试温度这个新的讨论点。
  4. “🤔 我不理解为什么人们想要LLMs具备通用知识。”
    • 亮点:提出与众不同的观点,引发新的思考方向。
  5. “😉 Qwen has less general knowledge than llama.”
    • 亮点:比较了Qwen和llama的通用知识情况。

情感分析

总体情感倾向比较理性客观。主要分歧点在于原帖作者关于Qwen2.5模型的测试结果是否准确,可能的原因是不同的测试环境、测试用例以及测试基准的差异。

趋势与预测

  • 新兴话题:关于在不同温度设置下重新测试模型的讨论可能会继续,对Qwen模型知识构成及发展方向的探讨可能深入。
  • 潜在影响:对AI模型的客观测试标准的制定和完善可能有推动作用,影响人们对不同AI模型能力的评估和选择。

详细内容:

《AI 模型 Nemotron 70b 与 Qwen2.5 72b 的比较引发热烈讨论》

近日,一则关于比较 Nemotron 70b 与 Qwen2.5 72b 这两个 AI 模型的帖子在 Reddit 上引起了广泛关注。该帖子作者表示,在一系列的一般知识问题测试中,Nemotron 70b 表现更优,还未测试 Nemotron 70b 在编码相关任务上与 Qwen2.5 Coder(32b)的对比情况,并希望听听其他人的经验和看法。此帖获得了众多回复和大量讨论。

在讨论中,有人表示在自己的使用环境中(本地和通过 API)对它们进行了测试,总体上 Nemotron 略胜一筹。在一般用例、遵循提示、角色扮演方面表现更好,在与 STEM 相关的任务中也略胜一筹,但在编码相关任务中稍弱。在推理和逻辑方面,这两个模型相互比较不相上下。

也有人认为看到 Qwen 排名如此低有些可疑,质疑测试的准确性。比如有人说:“Qwen2.5-14B-Instruct Q8_0 local 27 %\n\nin reasoning\n\nand QwQ 20%?\n\nHard to believe…. from my test is comparable to o1 mini in reasoning / math… is something wrong with your tests. Qwen2.5-14 is not even in the same room with QwQ.\n\nORRRR coding\n\nmistral-nemo-12b-instruct 65%? WOT?\n\nQwen2.5-Coder-32B-Instruct Q4_K_M local 55%?”

还有人讨论了测试时的温度设置问题,有人建议对于编码相关问题使用更低的温度。

对于为何要让 LLMs 具备一般知识,也有不同看法。有人不理解为什么人们希望 LLMs 有一般知识,认为应更关注其在 RAG 应用中的知识检索和使用能力。

此次讨论的核心问题在于:Nemotron 70b 与 Qwen2.5 72b 到底谁更优,以及测试的准确性和条件设置对结果的影响。不同的观点和经验分享,让这场关于 AI 模型的讨论更加丰富和深入。