原贴链接

大家好,我正在评估一些轻量级大语言模型(LLM)用于创意写作,重点关注模型在复杂提示下的原创性和表现。我已经测试了几款适合12GB VRAM + 16GB RAM配置的GGUF版本模型,部分通过了初选,进入更严格的第二轮评估。求推荐其他值得测试的15亿参数以下模型,特别是针对角色扮演或创意写作的冷门佳作!感谢!

讨论总结

帖子作者寻求推荐适合创意写作和角色扮演的模型,特别是那些不为人知的优质模型。讨论中,用户们积极推荐了多种模型,如drummer rociante 12Bv2mistral-nemo-unleashed 12BImpish_LLAMA_3BNemo-12B-Marlin-v8NIHAPPY-L3.1-8B-v0.09等。同时,讨论还涉及了模型评估方法、VRAM限制、过度拟合问题以及特定细分领域的需求。整体氛围积极,用户们乐于分享和探索新的模型。

主要观点

  1. 👍 冷门模型推荐
    • 支持理由:用户们认为冷门模型可能具有独特的特性和表现。
    • 反对声音:部分用户担心冷门模型的稳定性和支持度。
  2. 🔥 模型评估方法
    • 正方观点:明确评估指标有助于更准确地选择模型。
    • 反方观点:过于严格的评估可能导致模型过度拟合。
  3. 💡 VRAM限制
    • 用户们讨论了在有限VRAM条件下运行大模型的挑战和解决方案。
  4. 📱 手机运行模型
    • 用户们对能在手机上运行的模型表现出兴趣,如Impish_LLAMA_3B
  5. 🤔 过度拟合问题
    • 用户们探讨了评估方法可能导致模型过度拟合的问题。

金句与有趣评论

  1. “😂 These two are my new favourites (can go higher for the quant as I’m on 12gb vram).”
    • 亮点:用户对推荐模型的喜爱和实际使用情况的描述。
  2. “🤔 heard good things about Cydonia 22B v1.1 but i havent got it to work.”
    • 亮点:用户对未成功运行模型的好奇和遗憾。
  3. “👀 I just found that drummer rociante 12Bv2 is an alias of UnslopNemo-v2— it’s solid, no sloppy performance for sure.”
    • 亮点:用户对模型别名的发现和对其表现的肯定。

情感分析

整体情感倾向积极,用户们对探索和推荐新模型表现出浓厚的兴趣。主要分歧点在于模型评估方法和过度拟合问题,部分用户对严格的评估方法表示质疑,担心会导致模型过度拟合。讨论中充满了对技术细节的探讨和对新模型的期待。

趋势与预测

  • 新兴话题:特定细分领域的模型需求,如“同性恋胖毛茸茸角色扮演”。
  • 潜在影响:推动模型开发者在创意写作和角色扮演领域进一步优化和细分模型,满足更多样化的用户需求。

详细内容:

标题:关于 150 亿参数以下创意/RP 模型的热门讨论

在 Reddit 上,有一篇题为“Recommendations for creative/RP models under 15B parameters, especially obscure favorites!”的帖子引起了广泛关注。该帖子获得了众多用户的积极参与,评论数众多。

原帖作者正在评估用于创意写作的低量化大型语言模型(LLM),并设定了个人基准测试,重点关注模型在遵循复杂提示时展现的原创性。作者还列出了已通过首轮测试和未通过测试的模型,并向大家询问还有哪些参数在 150 亿以下、适合创意写作或角色扮演、相对冷门但值得测试的模型。

讨论的焦点主要集中在以下几个方面: 有人推荐了“drummer rociante 12Bv2(Q4_K_S)”和“mistral-nemo-unleashed 12B(Q8_0)”,并提到听说“Cydonia 22B v1.1”不错但自己还未成功使用。 有人分享了自己的测试标准,包括“性能得分”和“病理得分”,用以评估模型表现。 有用户认为原作者制定的严格指南可能导致过度拟合的模型排名更高,应更明确对模型的需求。但也有人认为语言中的“草率”和创意之间存在差异,关键在于能否识别出潜在的创意,而不仅仅是表面的语言。 还有人推荐了各种不同的模型,比如“Impish_LLAMA_3B”“Nemo-12B-Marlin-v8”“NIHAPPY-L3.1-8B-v0.09”“Halu-8B-Llama3-Blackroot”“InfinityKumon-2x7B”等。

其中,有人分享道:“我刚刚发现 drummer rociante 12Bv2 是 UnslopNemo - v2 的别名——它表现确实不错,肯定不马虎。”

这次讨论揭示了在选择和评估创意/RP 模型时的多样性观点和复杂考量。究竟如何在众多模型中找到最适合特定需求的那一款,仍有待进一步的探索和实践。