原贴链接

这是一个指向https://huggingface.co/TheDrummer/Skyfall - 36B - v2的链接

讨论总结

这个讨论主要围绕Drummer’s Skyfall 36B v2模型展开。一些评论者认为该模型在初步测试后很有前景,也有人提到模型在长对话中的表现、开箱即用的比例以及审查问题。还有人在下载模型,关注其是否消除了Mistral的特定特征。同时,在讨论中也涉及模型的资源分享、升级方式、协议、是否“越狱”等多方面内容,整体氛围比较积极,大家对这个模型充满好奇并积极探讨相关问题。

主要观点

  1. 👍 模型在初步测试后很有前景
    • 支持理由:评论者初步测试后发现其在长对话中能保持角色定位等优点。
    • 反对声音:无。
  2. 🔥 对微调模型整体持负面看法
    • 正方观点:很多微调模型通常都会很糟糕,例如Arli rpmax 2501的微调是失败的。
    • 反方观点:虽然多数情况同意,但存在部分基于特定数据集训练的较好模型。
  3. 💡 Skyfall 36B v2能输出较好散文但存在一些问题
    • 该模型能输出不错的散文,但存在陷入长且近乎重复模式的问题,在遵循直接字面指令方面表现欠佳,而Gemma 27B在场景检查点指令方面表现更好且审查限制较少。
  4. 💡 36B的规模无趣,更倾向于70B
    • 认为36B规模无趣,如果在36B和70B之间选择更倾向于70B,希望对最新mistral进行24B直接微调。
  5. 💡 对模型“upscale”的方式存在疑问
    • 想知道如何对模型进行“upscale”以及哪种微调类型会给现有的基础模型增加参数。

金句与有趣评论

  1. “😂 As usual with all finetunes, it probably sucks.”
    • 亮点:直接表达对微调模型的不信任,比较直白且具有代表性。
  2. “🤔 I would say 90% of the time it works outofbox.and that 10% it suddenly becomes censored as hell, I am trying to make it stick to a certain seed.”
    • 亮点:详细指出模型90%开箱即用,10%会受严重审查的情况。
  3. “👀 I’m more interested in a 70B if 36B is an option.”
    • 亮点:表达对模型规模的偏好。
  4. “😎 Downloading it now, let’s see if it got rid of Mistral’s palpable shivers barely above a whisper that are testament to mix of excitement and fear.”
    • 亮点:以一种形象的表述说明下载模型的目的。
  5. “🤓 It can output quite good prose. However, it can get caught in long almost - repetitive patterns (bus driver looking at the clock… then at the passenger… then at the clock again….).”
    • 亮点:对模型的输出能力进行了比较全面的评价,既提到优点也指出问题。

情感分析

总体情感倾向是积极的,大家对这个新模型充满好奇和期待。主要分歧点在于对微调模型的看法,部分人认为微调模型通常表现糟糕,但也有人认可存在部分较好的微调模型。可能的原因是不同人在使用微调模型时有不同的体验,以及不同的模型在不同的应用场景下表现不同。

趋势与预测

  • 新兴话题:模型在故事创作中的应用以及在训练中加入小说或故事的可能性。
  • 潜在影响:如果模型在故事创作等特定领域表现出色,可能会吸引更多人使用这个模型,也可能会影响其他模型开发者在模型训练中加入类似元素。

详细内容:

《关于 Drummer’s Skyfall 36B v2 模型的热门讨论》

在 Reddit 上,一个关于“Drummer’s Skyfall 36B v2 - An upscale of Mistral’s 24B 2501 with continued training; resulting in a stronger, 70B-like model!”的帖子引起了众多关注。该帖子提供了模型的链接:https://huggingface.co/TheDrummer/Skyfall-36B-v2 ,点赞和评论数众多,引发了广泛而热烈的讨论。

讨论的焦点主要集中在该模型的性能表现、与其他模型的对比、应用场景等方面。有人表示经过初步测试,模型在长对话中能坚守角色,90%的情况下表现出色,但也有 10%的时候会突然受到严格审查。有人好奇它在角色扮演中的表现,还有人询问能否与 Ollama 兼容。

关于模型的升级方式,有人提出疑问,得到的解释是通过 mergekit 增加层数并再次进行调整。对于该模型的进一步训练效果,大家也充满好奇。有人询问是否有关于升级和持续训练过程的报告,有人提供了相关链接。

有人认为该模型可能不如预期,而有人则在实际使用了许多模型后认为它具有潜力。还有人探讨了不同模型在遵循指令和避免审查方面的表现。

有用户分享道:“作为一名长期关注模型的爱好者,我试用过多种模型。在大多数情况下,一些微调后的模型效果不佳。但这次的 Skyfall 36B v2 给了我新的期待。” 还有用户说:“我用 Gemma 27B 做测试,发现它在通过场景检查点指令方面表现更好,不像其他一些模型那样容易受到审查。”

在众多观点中,大家对于该模型的评价存在分歧,有人充满期待,有人持谨慎态度。但总体而言,对于模型的探索和讨论仍在持续,大家都希望能找到更优秀、更适用的模型。

你觉得 Skyfall 36B v2 会成为新一代优秀的模型吗?让我们拭目以待。