我看到Mistral新推出的24B模型时超级兴奋,但在实际用于多轮交互之后……我觉得它令人失望。根据我使用这个模型的经验,它很难考虑到任何没有被强行灌输进去的信息。它很容易偏离正轨或者陷入混乱。对于单轮问答,它表现还不错。但对于对话或者任何需要关注上下文的任务,它就表现得很糟糕。我已经反复检查过,我使用的是正确的提示格式和系统提示。附加问题:为什么 rope theta值是1亿?这个模型不支持长文本。我认为在选择架构时这是一个失误。只有我这么觉得吗?你们有没有人能让它在需要智能和遵循指令的任务上正常工作呢?祝好。
讨论总结
原帖作者表示对新的Mistral Small模型感到失望,特别是在多轮交互和需要关注上下文的任务中表现不佳。评论者们围绕这一观点展开讨论,有人分享类似的失望体验,也有人部分反对,认为模型表现取决于使用方式、未经过太多后训练但在速度和容易微调方面有优势等。还涉及到模型在编码应用中的表现、与其他模型的比较、对模型进行微调的效果与局限、针对模型表现不佳提出的使用建议等多方面内容。
主要观点
- 👍 Mistral Small模型在多轮交互、需要上下文的任务中表现差。
- 支持理由:多位使用者在自己的使用体验中发现该模型容易偏离轨道或混淆,如原帖作者、Majestical - psyche等。
- 反对声音:部分使用者认为模型表现取决于使用方式、未经过太多后训练但有其他优势,如评论者部分不同意原帖观点的相关表述。
- 🔥 Mistral Small模型在16GB VRAM AMD卡上用于编码是最佳选择,但存在上下文有限的问题。
- 正方观点:评论者在自己的使用中发现该模型在这种情况下是能使用的最佳模型。
- 反方观点:未明确有反对声音,但有其他使用者指出模型存在其他方面的不足。
- 💡 经过LoRA r = 16微调后的Mistral Small模型在创意写作方面表现优秀,但微调模型在实践中存在局限性,不应该是解决模型不好用的普遍方案。
- 解释:CheatCodesOfLife提到微调后的良好表现,brown2green指出微调在实践中的不可行性等。
- 👍 模型的不佳表现可能是官方在指令微调方向上的有意选择,提示格式对模型响应有重要影响。
- 支持理由:评论者认为如果不使用预期的提示格式,模型的响应会有很大不同。
- 反对声音:未明确有反对声音,但原帖作者表示自己使用了正确的提示格式仍表现不佳。
- 🔥 在原始有用性和智能方面,Mistral Small模型处于Qwen 2.5 32b和Qwen 2.5 72b之间,虽非最先进技术,但在速度和容易微调方面有优势。
- 正方观点:评论者根据自己的使用经验得出这一结论。
- 反方观点:未明确有反对声音,但有其他使用者强调模型在其他方面的问题。
金句与有趣评论
- “😂 In my experience with the model it has a really hard time taking into account any information that is not crammed down its throat. It easily gets off track or confused”
- 亮点:生动地描述了Mistral Small模型在处理非强输入信息时的困难,被多位使用者提及类似体验。
- “🤔 It’s very, VERY dry when it talks.”
- 亮点:以简洁的表述形容模型说话风格枯燥,是对模型使用体验的一种独特描述。
- “👀 not a single model I tried or tested has done it honestly they all suck for this stuff.”
- 亮点:表达出一种对测试过的模型在相关任务上普遍表现不好的强烈态度。
- “😂 I fine tuned it (LoRA r = 16) for creative writing and found it excellent for a 24b.”
- 亮点:提出了一种使Mistral Small模型在创意写作方面表现优秀的微调方式。
- “🤔 Odd, it seems to work fine for me at Q5.”
- 亮点:与原帖作者的观点形成对比,体现出不同使用者对模型的不同体验。
情感分析
总体情感倾向较为复杂,既有失望、不满等负面情感,也有部分使用者持正面或中性的态度。主要分歧点在于对Mistral Small模型性能的评价,可能的原因是使用者的使用目的、使用场景、使用方式以及对模型的期望不同。例如,有些使用者注重多轮交互和上下文处理能力,当模型在这方面表现不佳时就会失望;而有些使用者更看重模型在特定任务(如编码)中的表现或者模型的可微调性等其他方面的优势。
趋势与预测
- 新兴话题:模型的微调相关操作、如何根据不同任务选择合适的模型。
- 潜在影响:对人工智能模型的开发和改进方向可能产生影响,促使开发者更加关注模型在多轮交互、上下文处理方面的性能,也可能让更多使用者重视模型的正确使用方式和微调操作。
详细内容:
标题:对新的 Mistral Small 模型评价不一
最近,Reddit 上关于新的 Mistral Small 模型的讨论热度颇高。一位用户发帖称对这个新模型非常期待,但实际使用后感到失望。该帖获得了众多关注,引发了广泛的讨论。
讨论焦点主要集中在以下几个方面:
有人指出 Mistral 推荐温度为 0.15,但不同用户使用的温度有所不同,效果也不一样。比如,有用户用 1.5 进行文本到图像的提示扩展自动化,效果良好,无法想象用 0.15 的情况。
部分用户分享了个人经历和案例。例如,有用户在 16GB VRAM AMD 卡上用它进行编码,认为这是自己能使用的最好模型,但也指出其有限的上下文是个问题。
对于模型的表现,观点各异。有人觉得它非常干燥,不如其他模型,如有人将其与 qwen2.5 32b 对比后,认为 qwen 更好。但也有人觉得它在某些方面表现不错,比如有人在小代理项目中使用,发现它在工具使用方面比之前的版本好。
有人提出疑问,比如关于模型的上下文长度,还有人思考不同模型在工具使用方面的优劣。
一些特别有见地的观点包括:有人认为不应总是依赖微调来解决问题,因为实践中不一定可行,可能成本高昂且需要特定知识;有人认为该模型默认情况下非常“安全”且响应风格精确;还有人认为其可能是朝着官方指导微调的方向进行的刻意选择。
总的来说,关于 Mistral Small 模型,大家的评价褒贬不一。是模型本身存在问题,还是使用方式不当?这或许需要更多的实践和探索来得出结论。
感谢您的耐心阅读!来选个表情,或者留个评论吧!