原贴链接

Mistral Nemo 已经发布两周了,所以我觉得现在是提问的好时机,因为我觉得我们很多人都已经尝试过了。

我相信很多人都在想哪一个模型更聪明,包括我自己。

就我个人而言,我倾向于在 Llama 3.0 微调版(3some, SthenoMaidBlackroot)和 Nemo Instruct 之间摇摆。

我不确定我更喜欢哪一个。

你在使用哪一个,为什么?

你喜欢 Nemo 的任何微调版吗,哪一个?

___

PS. 我排除了 Gemma 9B,因为根据我的经验,它在指令和RP及故事写作中的连贯性方面有所欠缺。我相信它非常聪明,LLM社区也很喜欢它,但我永远无法让它按照我的喜好工作。

讨论总结

本次讨论主要围绕Llama 3.0-3.1和Nemo 12B两个模型在故事写作和角色扮演(RP)中的使用体验。用户们分享了他们对不同模型的感受,包括对Nemo模型的不满和对Llama模型的偏好。讨论中还涉及了模型参数调整的讨论,如采样器设置、温度调整等,以及对模型性能的评价和建议。此外,用户还提到了Gemma 9B模型在指令和连贯性方面的不足。

主要观点

  1. 👍 Nemo模型在创意写作质量上优于Llama 3.0/3.1
    • 支持理由:Nemo能够很好地处理元故事叙述,提供高质量的场景和对话。
    • 反对声音:有用户认为Nemo在超过4k上下文长度时生成难以阅读的内容。
  2. 🔥 Llama 3.1 8B模型被一些用户认为是更好的选择
    • 正方观点:Llama模型在某些情况下提供更连贯和可读的输出。
    • 反方观点:Nemo模型在创意写作方面表现更出色。
  3. 💡 通过调整参数如Min-P和DRY乘数,可以改善模型的连贯性和防止重复
    • 解释:用户分享了通过调整这些参数来优化模型输出的经验。

金句与有趣评论

  1. “😂 -p-e-w-:I have a scenario where there is an outer narrator I interact with, telling a kind of meta-story, and L3 just doesn’t get that. NeMo had no problems from the start, I was blown away when suddenly, everything worked as I had always intended.”
    • 亮点:展示了Nemo模型在处理复杂叙述方面的优势。
  2. “🤔 -p-e-w-:With current-gen models, samplers work very differently from how things were 6 months ago. Most samplers are now useless and indeed harmful.”
    • 亮点:指出了当前模型采样器的变化及其对模型性能的影响。
  3. “👀 Suspicious-Soil-2704:For me Nemo on exl2 starts to generate some unreadable slop when it exceeds 4k context length, maybe not enough memory, can’t understand why.”
    • 亮点:揭示了Nemo模型在特定上下文长度下的性能问题。

情感分析

讨论的总体情感倾向较为中性,用户们分享了他们对不同模型的正面和负面体验。主要分歧点在于Nemo和Llama模型在创意写作和角色扮演中的表现,以及模型参数调整对输出质量的影响。

趋势与预测

  • 新兴话题:模型参数调整和前端工具的开发可能会成为未来讨论的热点。
  • 潜在影响:优化模型参数和开发前端工具可能会提高用户在故事写作和角色扮演中的体验。