我在寻找可本地使用的大型语言模型(LLM),要求是有足够的推理、理解能力,能编码以及处理一些初级数学问题。我之前在关注QwQ 32b,它看起来很有潜力。上周,谷歌和Mistral发布了Gemma 3 27b和Mistral small 3.1 24b;从基准测试来看,这两个模型在ELO评分上接近Deepseek r1,很厉害。但说实话,我已经不再关心基准测试了,尤其是Lmsys的,我也不知道为什么,当你在实际中使用这些模型时,排名似乎总是不对。所以,我做了一个小测试来确定选择哪个模型。我还将答案与我经常使用的Deepseek r1进行基准对比以便更好地了解情况。以下是我的发现:在编码方面,QwQ 32b在这三个模型中遥遥领先。它有时写出的代码比Deepseek r1还好,基准测试没骗人。而且交互体验也很好。Gemma排第二,能处理简单任务。而Mistral表现不好。在推理方面,QwQ还是更好。当然,它是个推理模型,但Gemma也很优秀,基础模型做得不错。Mistral表现一般。在数学方面,Gemma和QwQ处理简单数学任务都足够好。Gemma作为基础模型速度更快,我可能会对这两个模型做更多测试。Mistral还不错但还是排第三。该选哪个呢?QwQ 32b无疑是同类中最好的模型。在编码、推理和数学方面都很出色。我已经很久没用本地模型了,上一个是一年前的Mixtral,从没想到现在的模型能这么好。QwQ很有潜力,我迫不及待想看到他们的新的最大版本。Gemma 3 27b是个可靠的基础模型,体验不错,选它也不会差太多,但它有特定的许可证,比Apache 2.0更严格。Mistral small 3.1 24b没有给我留下太深印象,也许需要更严格的测试。Gemma和Mistral Small都有图像支持,这也可以考虑。如需完整分析,请查看这篇博客文章:QwQ 32b vs Gemma 3 vs Mistral Small vs Deepseek r1。我很想知道你们现在正在使用哪个模型以及用于什么特定任务。
讨论总结
原帖作者对Gemma 3 27b、Mistral 24b和QwQ 32b在编码、推理、数学等方面进行了测试比较。评论者们针对这些模型的表现展开了广泛讨论,包括模型在特定任务中的优劣、测试时的参数设置、运行中的问题以及与其他模型的比较等,既有肯定原帖结论的,也有提出不同意见和补充观点的,整体讨论氛围比较理性平和。
主要观点
- 👍 QwQ 32b在编码、推理和数学方面表现优秀
- 支持理由:原帖测试结果表明,以及部分评论者通过自身使用经验证实。
- 反对声音:有评论者指出在金融问答方面QwQ存在过度思考且JSON答案不正确的问题,还有评论者表示在24GB GPU上存在有限的上下文情况。
- 🔥 原帖将Gemma称为基础模型具有误导性
- 正方观点:原帖没有区分Gemma的指令模型和真正的基础模型,应明确使用的模型。
- 反方观点:无(未发现明确反对该观点的评论)
- 💡 Mistral small在编码方面作为代理很棒
- 解释:评论者认为虽然原帖中Mistral在编码方面表现不佳,但作为代理时是很棒的。
- 👍 QwQ 32b存在过度思考的问题
- 支持理由:有多位评论者指出QwQ在使用中会出现过度思考,有时思考近乎无休止。
- 反对声音:有评论者在编码方面力荐QwQ,认为它稳定、智能且无幻觉。
- 🔥 原帖将QwQ与其他模型比较不合适
- 正方观点:QwQ是推理模型,比其他模型更智能且模型更大,不应与其他模型简单比较。
- 反方观点:无(未发现明确反对该观点的评论)
金句与有趣评论
- “😂 NickNau: that is the only true question to ask anyone having troubles with mistral.”
- 亮点:强调在Mistral有问题时,询问是否使用0.15的温度这个问题的重要性。
- “🤔 评论者:谈论Gemma作为基础模型有点误导 - 我假设您在不是推理模型的意义上称其为“基础”,对吗?但这并没有区分Gemma指令和Gemma(真正的)基础模型。澄清您实际使用的是哪个模型会很好。”
- 亮点:指出原帖在Gemma模型表述上的模糊性。
- “👀 davew111: Apparently using a repetition penalty with mistral hurts performance, so I’m guessing a little temperature is used instead to avoid it getting stuck in a loop.”
- 亮点:对Mistral使用0.15温度的原因给出了一种可能的解释。
- “😂 HappyFaithlessness70:I tested QwQ for transcript summarization. It’s very very good, sometimes better than GPT 4 / 4.5.”
- 亮点:表明QwQ在转录总结任务中的表现优于GPT 4/4.5。
- “🤔 评论者:I like QwQ but limited context on 24gb GPU.”
- 亮点:简洁地说出对QwQ的喜爱以及其在24GB GPU上存在的问题。
情感分析
总体情感倾向较为理性中立。主要分歧点在于对QwQ模型的评价,一部分人认可QwQ在多个方面的优秀表现,如编码、推理和数学能力等;另一部分人则指出QwQ存在的问题,如过度思考、在特定硬件上的局限性以及在金融问答中的不足等。可能的原因是不同评论者的使用场景、测试任务和对模型期望的不同。
趋势与预测
- 新兴话题:对ExaOne Deep模型的测试、FuseAI模型的比较以及不同量化模型在不同硬件上的运行效果等可能成为后续讨论的话题。
- 潜在影响:这些讨论有助于更全面地了解不同LLMs的性能,为用户在选择本地使用的模型时提供更多参考,同时也可能促使模型开发者对模型进行改进优化。
详细内容:
标题:LLM 模型大比拼:Gemma 3 27b、Mistral 24b 与 QwQ 32b
最近,Reddit 上有一个热门讨论帖引起了众多网友的关注,该帖作者对 Gemma 3 27b、Mistral 24b 与 QwQ 32b 这三款语言模型进行了本地测试,并分享了测试结果。此帖获得了大量的点赞和评论,引发了网友们关于这几款模型在编码、推理、数学等方面表现的热烈讨论。
在编码方面,QwQ 32b 表现出色,遥遥领先于其他两款。有人表示:“在本地运行 QwQ 32b 并能证实这些发现。其编码能力令人惊讶地好,甚至比一些云模型还要出色。”但也有人指出:“我今天对它进行了一些测试,qwen2.5-coder:32b 一直未能捕捉或纠正错误。”
在推理方面,QwQ 再次表现较好,Gemma 也很出色,而 Mistral 则稍显逊色。
数学方面,Gemma 和 QwQ 都能较好地完成简单数学任务,Gemma 作为基础模型速度更快。
对于如何选择模型,有人认为:“QwQ 32b 无疑是同类中最好的模型,在编码、推理和数学方面都表现出色。”但也有人提到 Gemma 3 27b 是一个坚实的基础模型,不过它有特定的许可证限制。而 Mistral small 3.1 24b 则没有给很多人留下深刻印象。
关于模型的运行设置,网友们也进行了热烈的讨论。比如,有人询问:“对于 Mistral ,您是否使用了 0.15 的温度?”
还有人分享了不同模型在不同场景下的个人使用经历。比如,有人说:“我在 24GB VRAM 上运行 QwQ 32b 还可以,但上下文空间不多。”
总的来说,这几款模型各有优劣,网友们的讨论为大家在选择适合自己需求的模型时提供了更多的参考和思考。但究竟哪款模型更适合您的具体需求,还需要您根据实际情况进一步测试和判断。
感谢您的耐心阅读!来选个表情,或者留个评论吧!