随着 liger 内核的发布和 gemma 推理与训练的诸多修复,我们终于可以向您展示我们最新的模型系列:9b gemma 和 9b chatml。
与常规 gemma 不同,customgemma2 在训练时支持系统提示,并且在我们的测试中表现更为温和,更加全面。
chatML 与谷歌基础模型内部的任何内容更加一致,并且更加“狂野”和有趣,适合玩耍。
因此,我们发布了这两个版本,以覆盖两个阵营;无论您是想要 chatML 模型的疯狂攻击性,还是更轻松的选择。
希望您喜欢!感谢所有持续给予我们反馈和支持的朋友们!
权重和量化在这里:https://huggingface.co/collections/anthracite-org/v3-66cc37cccc47b8e6e996ef82
讨论总结
Reddit用户对新发布的Magnum v3模型系列表示了广泛的兴趣和支持。讨论主要集中在模型的性能、上下文大小、代码生成以及与其他模型的对比上。用户对新模型的发布表示感谢,并期待进一步的反馈和支持。尽管存在一些技术问题,如模型在生成文本时省略常见词汇,但总体上用户对新技术的积极态度和对开发团队的感谢占据了主导地位。
主要观点
- 👍 对新模型的发布表示积极支持
- 支持理由:用户对新技术的支持和期待,通过点赞和感谢表达。
- 反对声音:暂无明显反对声音。
- 🔥 Magnum v3的9b gemma和9b chatml版本与其他模型(如Nemo Magnum)的对比
- 正方观点:9b gemma在故事讲述中的表现优于其他模型,且较少出现重复性问题。
- 反方观点:Gemma模型在代码生成方面不如Nemo模型。
- 💡 Gemma模型的上下文大小为8k,但用户可以尝试更高的上下文大小
- Nemo模型在超过16k上下文时表现不佳。
- 🤔 询问是否有计划推出v3 123b版本
- 强调v2 123b模型在spicy roleplay方面的优秀表现。
- 😂 chatML版本模型在回答问题时表现出了超出预期的“狂野”行为
- 模型输出了与问题无关的Python代码和正则表达式教程,用户对此感到惊讶和有趣。
金句与有趣评论
- “😂 I see new models, I upvote.”
- 亮点:简洁直接地表达了对新模型发布的支持。
- “🤔 How does it compare with Nemo Magnum?”
- 亮点:提出了关键的模型对比问题,引发深入讨论。
- “👀 When you said the chatML version was wild I had no Idea how wild.”
- 亮点:生动描述了chatML模型的“狂野”行为,增加了讨论的趣味性。
- “💡 My only problem with Gemma models is that they can’t code compared to Nemo.”
- 亮点:指出了Gemma模型在代码生成方面的不足,引发技术讨论。
- “😅 "He lay beneath shadowy branches, feeling the wind blow across sleepy eyelids".”
- 亮点:展示了模型在生成文本时省略常见词汇的问题,引发解决方案的讨论。
情感分析
讨论的总体情感倾向是积极的,用户对新模型的发布表示了广泛的支持和期待。尽管存在一些技术问题和争议,如模型在生成文本时省略常见词汇和上下文大小问题,但这些问题并未主导讨论的氛围。用户对开发团队的感谢和对新技术的积极态度占据了主导地位。
趋势与预测
- 新兴话题:模型在故事创作和代码生成方面的性能对比,以及上下文大小对模型性能的影响。
- 潜在影响:新模型的发布可能会引发更多关于模型性能和技术细节的讨论,推动模型开发团队进一步优化和改进模型。
详细内容:
标题:Magnum v3 - 9b 模型引发的Reddit热议
近日,Reddit上一则关于Magnum v3 - 9b模型的帖子引发了广泛关注。该帖介绍了新模型系列9b gemma和9b chatml,并提到了liger kernels的推出以及对gemma推理和训练的诸多修复。帖子还提供了模型权重和量化的链接:https://huggingface.co/collections/anthracite-org/v3-66cc37cccc47b8e6e996ef82 ,收获了众多点赞和大量评论。
讨论的焦点主要集中在以下几个方面: 有人表示看到新模型就会点赞。有人询问该模型与Nemo Magnum相比如何,哪个更适合讲故事,是否存在重复生成的问题。有用户认为相比任何Nemo调优,更喜欢magnum customgemma2,觉得其在故事中的表述更接近自然人类语言,且指出gemma模型的架构与llama有所不同,模型更稳定,重复模式较少。也有人提出Gemma模型在编码方面不如Nemo。还有人关心模型的上下文大小,被告知训练时因计算限制为8k ctx,但用户可以尝试更高。有人期待v3 123b模型,不过开发者表示因成本高昂暂无法保证。有人表示chatML版本非常“狂野”,甚至给出了奇特的回答。还有用户反映Magnum模型存在漏词等问题,比如“the”“their”“his”等,且相比基础模型更难遵循指令,尽管输出有时不错,但难以控制。对此,有用户建议更新相关设置、尝试不同量化格式、重置采样器等。
在这场讨论中,有人对新模型充满期待,也有人提出了实际使用中的疑问和困惑。但无论如何,这些讨论都为模型的进一步优化和改进提供了有价值的参考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!