大家好!👋
Zeus Labs 带着过去的回忆回来了——还记得最初的 LLaMA 1 模型吗?我们一直在研究和改进,现在很高兴向大家介绍 Chronos-Divergence-33B!
我们大幅提升了原始模型的序列长度,从 2048 增加到 16,384 个有效标记!即使只使用了约 5 亿个新的微调数据标记,它现在也能长时间保持连贯性,最多可达 12,000 个标记。
最独特的地方?它几乎没有其他模型中常见的重复的“GPT 风格”或“杂乱”。我们彻底清理了数据集,并专注于保留 L1 的“魅力”。如果这个模型受到欢迎,我们甚至可能将其引入更小的模型或新的模型中。
到目前为止,我们对结果相当满意,尽管我们还没有运行任何传统的基准测试。我们很快会进行一些评估,但并不期望一个专注于角色扮演的老模型能带来太多惊喜。
查看模型卡片以获取所有技术细节和可用的量化信息:https://huggingface.co/ZeusLabs/Chronos-Divergence-33B
让我们知道你的想法!💬
讨论总结
Zeus Labs推出的Chronos-Divergence-33B模型在Reddit上引发了广泛的讨论,主要集中在模型的技术改进和使用体验上。用户普遍赞赏该模型在减少“GPT-isms”和“slop”方面的表现,认为这是一个显著的进步。讨论中还涉及到模型的训练数据集、性能优化、以及在故事写作和角色扮演方面的应用。尽管有一些用户对模型的速度和生成文本的长度表示不满,但整体上,讨论氛围积极,用户对新模型的潜力表示期待。
主要观点
- 👍 Chronos-Divergence-33B模型没有“GPT-isms”或“slop”问题
- 支持理由:用户认为这是模型的一大优势,使其在生成文本时更加流畅和自然。
- 反对声音:无明显反对声音,但有用户提到即使使用基础模型也可能存在“AI smell”。
- 🔥 使用旧模型作为基础是一个合理的选择
- 正方观点:用户认为旧模型因为没有“GPT-isms”或“slop”问题而更具吸引力。
- 反方观点:无明显反对声音,但有用户提到新模型是否真的如描述的那样“sloppy”。
- 💡 建议使用DPO/KTO等技术来减少模型中的“slop”
- 解释:用户提出这些技术可能有助于进一步优化模型的性能。
- 👀 模型在故事写作方面的表现不佳
- 解释:用户对模型在故事写作方面的表现表示困惑,认为其更适合角色扮演。
- 🚀 期待公开模型的微调数据集
- 解释:用户对数据集的透明度表示关注,希望了解更多的技术细节。
金句与有趣评论
- “😂 I’ve been thinking about using an older model as a base too. Since they’re GPT slop free lol.”
- 亮点:幽默地表达了用户对旧模型的好感。
- “🤔 Omfg I literally just started pre training a pruned LLama 33B for the same reason of GPTisms ruining my BlackSheep models!”
- 亮点:展示了用户对模型训练的浓厚兴趣和实际操作。
- “👀 I’m not sure if I’m doing something wrong but I’m having a hard time getting this model to write much without stopping.”
- 亮点:反映了用户在使用模型时的实际困惑和挑战。
- “🚀 At some point we plan to release the datasets and our methodology, but that will be after our GQA implementation or other projects.”
- 亮点:透露了未来可能公开数据集的计划,增加了透明度。
- “💡 I think messing with tokenizer is a good potential idea to remove gptisms.”
- 亮点:提出了一个创新的技术解决方案,引发了进一步的讨论。
情感分析
讨论的总体情感倾向是积极的,用户对Zeus Labs的工作表示认可,并对新模型的改进表示赞赏。主要的分歧点在于模型在故事写作方面的表现,部分用户对此表示困惑和不满。可能的原因是模型主要专注于多轮角色扮演,而非单轮故事写作。
趋势与预测
- 新兴话题:模型在故事写作方面的应用和优化可能会引发后续讨论。
- 潜在影响:随着更多用户尝试和反馈,模型在不同应用场景中的表现将得到进一步优化,可能推动相关领域的技术进步。
详细内容:
标题:Zeus Labs 推出改进版的 Chronos-Divergence-33B 模型引发 Reddit 热议
Zeus Labs 带来了一项令人瞩目的创新——Chronos-Divergence-33B 模型。该模型基于经典的原始 LLaMA 1 模型进行改进,一经发布就在 Reddit 上引发了热烈讨论。原帖获得了众多关注,评论数众多。
帖子主要介绍了该模型将原始模型的序列长度从 2048 大幅提升至 16,384 有效令牌,仅使用约 500M 令牌的新微调数据,就能长时间连贯写作,且几乎没有其他模型常见的重复性问题。同时提供了模型卡的链接(https://huggingface.co/ZeusLabs/Chronos-Divergence-33B)供用户查看技术细节和量化信息。
讨论焦点与观点分析: 有人表示自己也一直在考虑使用旧模型作为基础,因为它们没有“GPT 式的冗余”,称赞了这项工作。还有用户称自己出于同样的原因刚刚开始预训练修剪过的 LLama 33B,并感慨开源社区对自己的想法予以了验证。有人提出训练并合并该模型。也有人认为现在有了更好的数据集,这很有趣。 有用户询问是否能对像 Command-R 这样的新模型做类似处理,有人认为 Command-R 模型存在一些问题,如助理偏差等,并推荐了 InternLM 20B 模型。还有人认为仅靠 DPO 是不够的,ORPO 或在预训练原始文本切片上进行 SFT 更好,但仍不完美。有人提出通过调整系统提示可以获得更长的结果。有人反映该模型在故事写作方面表现不佳,也有人表示通过调整设置可以改善。有人指出目前该模型产生的响应比自己习惯的短,还有人对模型的速度表示不满,也有用户分享了提高速度的方法。
总之,对于 Zeus Labs 推出的这款新模型,大家讨论热烈,既有对其创新的肯定,也有对其在某些方面表现不足的探讨。
感谢您的耐心阅读!来选个表情,或者留个评论吧!