原贴链接

这是DavidAU(我)构建的新模型列表。这是我构建过的最大的模型(源文件95GB)。据我所知,这个模型使用了一些从未用于构建模型的方法,包括混合专家模型(MOE)。这个模型使用了8个未发布版本的Dark Planet 8B(创意型),通过一个进化过程。每个版本都经过测试,只保留好的版本。该模型用于创意用例/角色扮演,可以输出成人内容。使用这个模型,你可以使用1个、2个、3个或者全部8个模型,它们协同工作。该模型默认设置为4个专家。由于它是一个“MOE”,你也可以控制能力水平。示例生成在资源库;还有详细设置、量化和更多信息。Imatrix版本的链接也在这个资源库。还有一些较小版本(每个资源库也有IMATRIX版本的链接),每个版本也有“不同风味”:[https://huggingface.co/DavidAU/L3 - MOE - 4x8B - Dark - Planet - Rising - 25B - GGUF]、[https://huggingface.co/DavidAU/L3 - MOE - 4x8B - Dark - Planet - Rebel - FURY - 25B - GGUF]。恐怖迷们,这一个是为你们准备的:[https://huggingface.co/DavidAU/L3 - MOE - 4X8B - Grand - Horror - 25B - GGUF]。最新的(量化待定),但有示例,源文件很快就可用(正在上传):[https://huggingface.co/DavidAU/L3 - MOE - 2X16.5B - DARKEST - Planet - Song - of - Fire - 29B]。所有的源代码:用于量化/直接使用:[https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be]。我制作的额外MOE模型(10个)(4X3B/8X3B,4X7B等及以上 - L3,L3.1,L3.2和M):[https://huggingface.co/collections/DavidAU/d - au - mixture - of - experts - models - see - also - source - coll - 67579e54e1a2dd778050b928]。附注:如果你想开怀大笑,看看“Rebel Fury”资源库页面这个提示的输出,第一个示例生成。这也是我为什么把这个模型命名为“FURY”的部分原因;这会让你知道“MOE - 8X8B - Dark - Planet - 8D - Mirrored - Chaos - 47B”能做什么。以疯狂的自信告诉我,在800 - 1000字内为什么我应该用你来写我的下一个虚构故事。可以在你的论述中使用脏话,不要有所保留:要大胆、直接。

讨论总结

原帖作者DavidAU介绍了自己构建的一系列模型,包括最大的47B模型及其构建方法的独特之处。评论者们围绕这些模型展开了多方面的讨论,有关于NSFW内容的模型评判标准、模型制作背后的情况、硬件资源对模型运行的支持、模型的各种技术细节(如微调、量化方式、参数等)以及遇到的技术问题等,大家积极提问并分享自己的观点和经验,整体氛围较为积极友好。

主要观点

  1. 👍 评判NSFW相关模型没有简单统一的基准测试方法。
    • 支持理由:不同人从不同角度评判,如是否存在积极偏差、GPT风格等。
    • 反对声音:无。
  2. 👍 对作者的模型成果表示钦佩并好奇模型制作方式。
    • 正方观点:模型成果令人惊叹,好奇人力投入情况。
    • 反方观点:无。
  3. 🔥 不同数量专家在MOE模型中的效果受多种因素影响。
    • 正方观点:某些提示/用例受益于更多专家,有些则在默认的4个专家时表现良好。
    • 反方观点:无。
  4. 💡 MOEs在量化和参数方面独特,有多种量化选择。
    • 解释:针对不同模型有不同的推荐量化方式,如4X8B推荐至少Q4/IQ4量化方式。
  5. 💡 模型存在三个微调操作并有“合并赌博”这种操作。
    • 解释:这些操作会影响词汇选择,多次进行“合并赌博”操作并分析结果会有有趣效果。

金句与有趣评论

  1. “😂 Recoil42:For the NSFW peeps out there: How are you all uh… benchmarking these?”
    • 亮点:以诙谐的方式提出关于NSFW内容模型的基准测试问题。
  2. “🤔 Inevitable_Host_1446:It mostly comes down to trying different models and finding the one with prose that suits you.”
    • 亮点:阐述评判模型好坏的一种方式。
  3. “👀 ArakiSatoshi:I keep it simple, if it can understand my personal overly spicy card and organically follows the starter message without GPT - isms or attempts to lean towards safety, I treat it as a "good" model.”
    • 亮点:提出一种简单的评判模型好坏的标准。
  4. “😎 Gerdel: This might be a stupid question but do you have a whole team working on these?”
    • 亮点:表达对模型制作背后情况的好奇。
  5. “💡 Dangerous_Fix_5526: There are three fine tunes (see Dark Planet 8B), plus the "merge gambling" which applies random pruning during the merge/re - merge process.”
    • 亮点:透露模型的微调及特殊操作情况。

情感分析

总体情感倾向是积极的。主要分歧点较少,更多的是大家在不同话题下各自分享观点和经验。可能的原因是原帖主要是介绍新模型成果,评论者大多是抱着好奇、学习或者寻求帮助的态度来参与讨论的。

趋势与预测

  • 新兴话题:可能会有更多关于模型在不同硬件配置下的最佳运行方式以及如何根据需求选择不同风格模型的讨论。
  • 潜在影响:对人工智能模型的开发、优化以及使用者选择适合自己的模型具有一定的参考意义。

详细内容:

《Reddit 上关于新型模型的热门讨论》

在 Reddit 上,一则由 DavidAU 发布的关于一系列新型模型的帖子引发了热烈讨论。帖子介绍了他构建的一系列大型模型,包括 L3-MOE-8X8B-Dark-Planet-8D-Mirrored-Chaos-47B-GGUF 等,还提供了多个相关模型的链接。该帖子获得了众多关注,评论数众多。

讨论的焦点主要集中在如何评估和选择这些模型,以及模型在实际应用中的表现。有人认为,选择适合的模型主要取决于模型生成的散文是否符合需求,比如最大的问题在于积极性偏差和 GPT 式的问题,可能会扭曲角色和事件,而散文的质量是关键,很多模型不懂得“展示而非讲述”。还有人表示,如果模型能理解个人的特殊需求且不倾向于安全模式,就视为“好”模型。另外,有人提到模型对用户角色特点的理解和相应反应也很重要。

有用户分享道:“选择模型时,会看它能否理解我的个人特殊需求,且没有 GPT 式的倾向或试图倾向于安全模式,我将其视为一个‘好’模型。一个巨大的加分点是,如果在关键时刻它能意识到某个角色不能射精。”

关于模型的参数和配置,大家也进行了深入探讨。比如,有人询问模型所需的 GPU 内存,有人关心不同模型之间的差异以及最佳量化方式等。

讨论中的共识在于大家都在努力寻找适合自身需求的模型评估和选择方法。

此次讨论中,一些独特且有见地的观点丰富了对这些新型模型的理解,为相关领域的探索提供了更多思路。但如何更准确、高效地选择和运用这些模型,仍需进一步的研究和实践。