原贴链接

“J.古登堡10B”:这是作家Gemma 9b版本(包含EQBench的4个顶级模型),添加古登堡使其达到10B。该模型用于散文和创意用途。古登堡改变了散文创作。示例生成、设置和其他信息可在代码库查看。https://huggingface.co/DavidAU/Gemma - The - Writer - J.GutenBerg - 10B - GGUF。“不羁之笔10B”:这是作家Gemma 9b版本(包含EQBench的4个顶级模型),添加古登堡和另外2个模型以解除审查,使主模型达到10B。该模型用于散文和创意用途。包括无审查的示例生成、设置和其他信息可在代码库查看。审查级别在提示层面控制,示例中有展示。散文控制也可在提示层面进行,同样有示例展示。https://huggingface.co/DavidAU/Gemma - The - Writer - N - Restless - Quill - 10B - Uncensored - GGUF。(每个代码库中的每个模型也有新的“ARM”量化)

讨论总结

这个讨论围绕着两款新的10B模型“J. Gutenberg”和“Restless Quill”展开。涉及的话题包括模型参数从9B到10B是如何转变的、基础模型相关的疑问、模型的审查机制、写作风格、模型功能、指令遵循等多方面内容。参与者提出了关于模型构建的疑问、对审查现象的看法、以及对模型改进方向的期望等,整体讨论氛围比较理性和平和。

主要观点

  1. 👍 对新模型从9B到10B参数的转变存在疑问
    • 支持理由:新模型参数提升,不清楚具体操作,所以产生疑问。
    • 反对声音:无
  2. 👍 新模型是通过Mergekit构建9B模型后添加层来达到10B
    • 正方观点:详细解答了模型构建过程。
    • 反方观点:无
  3. 🔥 “Gutenberg added”是添加特定层的操作
    • 解释:解答了关于特定操作的含义,对理解模型构建有帮助。
  4. 💡 对Restless Quill模型通过添加特定层来解除审查
    • 解释:针对模型去审查的方式给出了解释。
  5. 💡 审查会影响模型功能,尤其是创造性
    • 解释:多个评论者从不同角度提到审查对模型创造性等功能有影响。

金句与有趣评论

  1. “😂 Master - Meal - 77: Can you explain how you got from 9B to 10B parameters? What does "added Gutenberg" mean exactly?”
    • 亮点:直接提出对新模型的核心疑问,开启讨论。
  2. “🤔 Dangerous_Fix_5526: Gemma models (9B range) are limited (hard limit) with llamacpp to 9.99B. Using Mergekit I first build Gemma The Writer (9B), then added some more layers in mergekit again to create both "J.Gutenberg" and "Restless Quill" (+ 3 models).”
    • 亮点:详细解答模型构建的关键信息。
  3. “👀 dddimish:I see that there is censorship (in Restless). When he is asked to "write a pornographic story", he starts moralizing and does not write. He constantly deviates from the language he speaks. Is something broken? (LMs)”
    • 亮点:指出模型存在审查现象并举例说明。
  4. “😉 Gilgameshcomputing: These look fantastic, thank you.”
    • 亮点:表达对新模型积极的态度。
  5. “🤨 Majestical - psyche:I wish David’s models weren’t so horror based…”
    • 亮点:提出对模型中恐怖元素占比的看法。

情感分析

总体情感倾向是较为理性和平和的。主要分歧点在于模型的审查机制、模型中的元素构成(如恐怖元素的占比)等方面。可能的原因是不同用户对模型有着不同的需求和期望,例如有些用户更关注模型的创造性不受审查影响,而有些用户希望模型的元素构成更加多样化。

趋势与预测

  • 新兴话题:关于模型如何在去审查的同时更好地平衡功能保留以及如何优化模型中的元素构成(如减少恐怖元素占比)可能会引发后续讨论。
  • 潜在影响:对模型开发者来说,这些讨论可能促使他们在构建和优化模型时更加注重用户的多样化需求,提高模型的普适性和用户体验。

详细内容:

标题:关于两种新 10B 模型的热门讨论

Reddit 上一则关于两种新 10B 模型“J. Gutenberg”和“Restless Quill”的帖子引发了众多关注。该帖子详细介绍了这两个模型的特点和相关信息,获得了大量的点赞和众多的评论。

主要讨论方向包括模型参数从 9B 扩展到 10B 的实现方式、如何解除模型的审查限制、模型在处理特定任务时的表现等。核心问题在于如何理解模型的构建过程以及如何在保障性能的前提下优化模型的功能。

有人好奇如何从 9B 到 10B 参数,具体询问“added Gutenberg”的含义。有人解释称,先构建 Gemma The Writer(9B),然后使用 Mergekit 添加更多层来创建“J.Gutenberg”和“Restless Quill”,添加特定层可以改变模型的输出,目的是在保留 Gemma The Writer 9B 优势的基础上增强 prose 方面的性能。

有人请求链接基础模型,得到了相应的回复。还有人对破解 8K 上下文限制的问题进行了探讨,认为解决方案可能在 llama.cpp 编码中,但这也可能带来新问题,比如需要更新模型训练以适应更高的上下文水平。

有人反映“Restless”存在审查问题,比如要求写色情故事时会道德说教而不写,语言切换存在问题,且写作风格容易冗长。对此,有人解释可以使用 repo 中的 prose 控制来解决,并且指出审查会影响模型功能,该模型的审查解除在模型的最后一层,以避免影响指令跟随,但提示语言需更微妙,否则会被低层模型捕捉。

有人称赞这些模型很棒,期待尝试;也有人认为模型大多基于恐怖题材不太好,希望有更多元的内容。

总之,这次关于新 10B 模型的讨论十分热烈,大家从不同角度探讨了模型的特点和可能存在的问题,为模型的进一步优化和应用提供了有价值的思路。