原贴链接

经过大量幕后工作和实验后,希望没有让大家等太久。我们没有消失,只是忙于开发名为v4的一系列模型。它有多种规模和类型,你可以找到最适合自己配置的:9b(gemma - 2)、12b(mistral)、22b(mistral)、27b(gemma - 2)、72b(qwen - 2.5)、123b(mistral)。查看量化和权重:[https://huggingface.co/collections/anthracite - org/v4 - 671450072656036945a21348](https://huggingface.co/collections/anthracite - org/v4 - 671450072656036945a21348)。另外,很多人问如何直接支持我们,此次发布同时推出官方OpenCollective:[https://opencollective.com/anthracite - org](https://opencollective.com/anthracite - org),所有费用和捐赠都公开可见,可确保资金都用于更好的实验和模型开发。记住,反馈也非常宝贵,不要有捐赠压力,使用模型时享受乐趣就好,同时告诉我们满意和不满意之处。一如既往感谢Featherless,这次还要感谢Eric Hartford,他们提供了计算资源,否则这一切都无法实现。还要感谢Anthracite成员DoctorShotgun,他用自己的实验性magnum改进版本带头开发v4系列,并资助我们原本无法进行的实验。最后,非常感谢大家的喜爱和支持。祝大家万圣节前夕快乐,希望大家继续享受本地模型的乐趣。

讨论总结

原帖发布了Magnum/v4系列模型,包含多种规模和类型。评论者们从不同角度展开讨论,包括对模型特点如角色扮演和创意写作能力的探讨,对不同版本模型如123B的使用体验分享,对模型训练情况如Qwen 2.5的相关问题探讨,还有对新模型的期待、喜爱之情的表达等,整体氛围积极,大家积极分享观点并互相交流。

主要观点

  1. 👍 Magnum模型是RP和通用知识的混合且注重上下文
    • 支持理由:有用户根据使用体验得出
    • 反对声音:无
  2. 🔥 部分Magnum模型版本存在过于“色情”的倾向
    • 正方观点:有用户表示某些版本总是转变为性相关内容
    • 反方观点:无
  3. 💡 Qwen 2.5相关训练未达标准存在多种问题
    • 解释:如散文效果差、角色内拒绝、写对话和动作方面的问题
  4. 💡 希望作者运行Qwen 34B
    • 解释:用户表示期待此操作
    • 反对声音:无
  5. 💡 123B模型输出存在冗余内容且有类似Claude的重复描述问题
    • 解释:基于用户使用体验得出

金句与有趣评论

  1. “😂 Quiet_Joker:From my experience with them, they are a mix of RP and general knowledge.”
    • 亮点:简洁概括Magnum模型特点
  2. “🤔 Kako05:They are always horny and shift any RP to sex.”
    • 亮点:指出Magnum模型存在的特殊问题
  3. “👀 Sufficient_Prune3897:The best RP/creative writing series of models. Not trained on GPT, but Claude data.”
    • 亮点:对Magnum模型的独特评价
  4. “😎 Downtown - Case - 1755:At risk of sounding extremely greedy, I hope ya’ll do a run on Qwen 34B some time!”
    • 亮点:直白表达对Qwen 34B运行的期待
  5. “🤨 llama - impersonator:quite a few qwen 2.5 14b/32b magnum trains were attempted and none met our standards.”
    • 亮点:揭示Qwen 2.5训练的状况

情感分析

总体情感倾向积极,大多数评论者表达了对新模型的期待、喜爱、感谢等积极情感。主要分歧点在于部分用户认为Magnum模型存在色情倾向以及对Qwen模型训练未达标准的看法。可能的原因是用户对模型的不同使用场景和需求导致了不同的评价。

趋势与预测

  • 新兴话题:模型在不同场景下的表现比较以及如何改进未达标准的训练情况。
  • 潜在影响:对人工智能模型开发中训练方法的改进和特定场景下模型的优化有潜在的参考意义。

详细内容:

标题:Reddit 热议新发布的 Magnum/v4 系列模型

在 Reddit 上,一个关于新发布的 Magnum/v4 系列模型的帖子引起了众多用户的关注。该帖子介绍了多种不同规模和特点的模型,并提供了相关的量化和权重链接https://huggingface.co/collections/anthracite-org/v4-671450072656036945a21348,还公布了官方的 OpenCollective 链接https://opencollective.com/anthracite-org。此帖获得了大量的点赞和评论,引发了关于模型性能、应用场景以及与其他模型比较等多方面的热烈讨论。

在讨论中,有人表示从自己的经验来看,Magnum 模型更注重上下文,在角色扮演等方面表现出色。例如,有用户分享道:“我在过去几个月尝试和删除了许多模型,但 Magnum 模型太‘有趣’了,我舍不得删除,至少保留了一个。我一直保留着 Magnum 12b V2.5 KTO,最近又下载了 27b 模型,并在我的 3080Ti 上以 5 位运行。在我看来,两者都不错,而且我对这些 V4 版本非常期待。”

对于模型的特点和优势,存在不同的观点。有人认为 Magnum 是最好的角色扮演和创意写作系列模型,并非基于 GPT 或 Claude 数据训练。也有人指出不同规模的模型在性能和表现上存在差异,比如 72B 过于“热情”,而 123B 则相对较好。

在关于模型训练和应用的讨论中,有人提出希望能对 Qwen 34B 进行尝试,也有人对不同模型在不同场景下的量化选择进行了探讨。比如,有用户提问:“对于 24GB VRAM,使用 22b/27b 的高量化还是 72b 的低量化更好?”有人认为大模型的低量化通常更好,但也有人指出并非绝对,还需考虑模型大小差异和基础模型等因素。

还有用户分享了使用 123B 模型的初步体验,认为其具有一定的创新性和独特性,但也存在一些问题,比如有时会有重复描述等。

总之,Reddit 上关于 Magnum/v4 系列模型的讨论十分丰富和深入,展现了用户对新模型的关注和期待,也反映了在实际应用中面临的各种问题和思考。