原贴链接

我很兴奋能尝试这个新的320亿参数模型,因为它声称比Qwen2.5 32b性能更好。到目前为止,我已经测试了不少提示词,虽然在我的私人测试中,这个模型总体表现‘还可以’,但它有时会突然做出奇怪的事情。(使用Bartowski的EXAONE - 3.5 - 32B - Instruct - Q5_K_M,在LM Studio和Koboldcpp中测试)。其中,我选了两个非常简单的例子,输出结果很可疑。一个是关于鸭子数量计算的提示词,模型输出时把鸭子说成鹅,还出现数学错误;另一个是关于超人打败反派数量计算的提示词,答案正确但写作风格奇怪。我还尝试了更多高级逻辑问题,EXAONE在大多数问题上表现很糟糕,相比之下,Qwen2.5 32b在大多数问题上成功解决。除非我的GGUF文件损坏或者我操作有误,否则我认为Qwen2.5 32b仍然是约300亿参数模型中的佼佼者。所以你的体验如何呢?你在使用EXAONE 3.5 32B时是否比我运气更好?你有没有它表现出色(或令人失望)的例子?编辑(已解决):评论中的ambient_temp_xeno建议禁用重复惩罚,现在EXAONE 32b表现正常且更智能了。Many_SuchCases还建议使用官方系统提示词:‘你是LG AI Research的EXAONE模型,一个有用的助手。’虽然不如禁用惩罚影响大,但这个系统提示词似乎也能进一步改善输出。编辑2:我想,如果禁用EXAONE 32b的重复惩罚能让它变得这么好,那如果我对之前失望的模型,如Llama 3.3 70b,做同样的操作会怎样呢?虽然Meta的这个新模型不差,但我觉得它比不上其他700亿参数模型,如Nemotron 70b。一旦禁用,Llama 3.3 70b立即从有点差强人意变得成为我使用过的(在我的初始测试中)最棒、最强的本地模型,甚至比Nemotron还好。

讨论总结

原帖作者测试EXAONE 3.5 32B模型,发现其存在一些问题,如在简单示例和高级逻辑问题上表现不佳。评论者们纷纷分享自己的经验和观点,其中关于重复惩罚机制是否应使用以及如何改善模型表现的讨论最为热烈,还有人提出使用官方系统提示、尝试不同量化方式等建议,大家都在积极探索提升模型表现的方法。

主要观点

  1. 👍 模型(如EXAONE 32b等)不应使用重复惩罚机制
    • 支持理由:禁用后模型表现正常且更智能,如EXAONE 32b、Llama 3.3 70b等。
    • 反对声音:旧模型可能需要该机制。
  2. 🔥 按照模型README使用原始系统提示很重要
    • 正方观点:有助于模型更好地运行,如EXAONE 3.5 32B使用官方系统提示后输出改善。
    • 反方观点:无明显反对观点。
  3. 💡 可以尝试不同的量化方式解决模型表现不佳的问题
    • 支持理由:在其他模型上存在特定量化方式影响表现的情况。
    • 反对声音:按照建议尝试新的量化方式后,模型可能仍然存在问题。
  4. 💡 EXAONE 3.5 32B与Gemma 2 27B相比表现不佳
    • 支持理由:Gemma 2 27B在创意写作方面更强大,答案更详细且有细微差别。
    • 反对声音:无。
  5. 💡 EXAONE 3.5 32B逻辑任务表现不好,但小模型在创作和理解文学文本方面表现良好
    • 支持理由:原帖中模型在逻辑任务的表现和小模型在文学方面的表现对比。
    • 反对声音:无。

金句与有趣评论

  1. “😂 Are you using rep penalty? Because you should not.”
    • 亮点:直接指出重复惩罚机制可能是模型表现不佳的原因,很简洁地给出建议。
  2. “🤔 Just a friendly heads up. The readme says its important to use the original system prompt, which is: You are EXAONE model from LG AI Research, a helpful assistant.”
    • 亮点:提供了关于改善模型表现的另一个重要提示,即使用原始系统提示。
  3. “👀 我测试了不少提示,在我的私人测试中,这个模型总体表现“还可以”,但有时会突然做出奇怪的事情。”
    • 亮点:原帖作者对模型表现的直观描述,引出后续讨论。
  4. “😎 Once disabled, it behaves like a normal, "smart" LLM now.”
    • 亮点:体现出禁用重复惩罚机制后模型的良好变化。
  5. “🤨 Llama 3.3 70b, which was released the other day, was kind of disappointing to me, while not bad, I felt it was not on par with other 70b models like Nemotron.”
    • 亮点:对Llama 3.3 70b模型的评价,与其他模型对比,有参考价值。

情感分析

总体情感倾向积极探索,大家主要目的是提升模型表现。主要分歧点在于重复惩罚机制是否适用于所有模型,可能的原因是不同模型的特性不同,新旧模型对机制的需求存在差异。

趋势与预测

  • 新兴话题:探索不同模型的优势领域,如EXAONE 3.5 32B更适合文学创作方面的任务。
  • 潜在影响:有助于用户更好地选择和使用模型,也能为模型开发者优化模型提供参考。

详细内容:

标题:EXAONE 3.5 32B 模型的使用体验引发 Reddit 热议

最近,Reddit 上一篇关于 EXAONE 3.5 32B 模型的使用体验帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。原帖作者兴奋地尝试了这个新模型,在进行了一些测试后发现,尽管模型总体表现“还可以”,但有时会突然出现奇怪的情况。比如在回答关于鸭子和超人的简单逻辑问题时,虽然最终答案正确,但过程中存在错误和令人疑惑的表述。

讨论的焦点主要集中在以下几个方面:

  • 有人指出禁用“Repeat Penalty”能让模型表现正常且更智能。比如,[Admirable-Star7088] 分享说,禁用该选项后,EXAONE 32b 给出了非常正常、“聪明”且正确的回复;而开启时则会给出充满错误的奇怪回复。
  • 有用户在创意写作方面进行了对比,[Admirable-Star7088] 表示,在禁用“Repeat Penalty”后,让 Llama 3.3 70b 创作角色互动的叙事,效果令人惊叹;而开启时,对角色及其强弱的理解就很差。

在讨论中,大家对于模型的表现存在不同的看法。有人认为这可能是模型的问题,也有人觉得是使用方式不当。同时,也有共识认为,对于新模型,测试时应尝试禁用一些选项以了解其真实表现。

总的来说,关于 EXAONE 3.5 32B 模型的讨论还在继续,大家都在探索如何更好地使用它以及发挥其优势。