原贴链接

大家好!👋

Zeus Labs 带着过去的回忆回来了——还记得最初的 LLaMA 1 模型吗?我们一直在研究和改进,现在很高兴向大家介绍 Chronos-Divergence-33B!

我们大幅提升了原始模型的序列长度,从 2048 增加到 16,384 个有效标记!即使只使用了约 5 亿个新的微调数据标记,它现在也能长时间保持连贯性,最多可达 12,000 个标记。

最独特的地方?它几乎没有其他模型中常见的重复的“GPT 风格”或“杂乱”。我们彻底清理了数据集,并专注于保留 L1 的“魅力”。如果这个模型受到欢迎,我们甚至可能将其引入更小的模型或新的模型中。

到目前为止,我们对结果相当满意,尽管我们还没有运行任何传统的基准测试。我们很快会进行一些评估,但并不期望一个专注于角色扮演的老模型能带来太多惊喜。

查看模型卡片以获取所有技术细节和可用的量化信息:https://huggingface.co/ZeusLabs/Chronos-Divergence-33B

让我们知道你的想法!💬

讨论总结

Zeus Labs推出的Chronos-Divergence-33B模型在Reddit上引发了广泛的讨论,主要集中在模型的技术改进和使用体验上。用户普遍赞赏该模型在减少“GPT-isms”和“slop”方面的表现,认为这是一个显著的进步。讨论中还涉及到模型的训练数据集、性能优化、以及在故事写作和角色扮演方面的应用。尽管有一些用户对模型的速度和生成文本的长度表示不满,但整体上,讨论氛围积极,用户对新模型的潜力表示期待。

主要观点

  1. 👍 Chronos-Divergence-33B模型没有“GPT-isms”或“slop”问题
    • 支持理由:用户认为这是模型的一大优势,使其在生成文本时更加流畅和自然。
    • 反对声音:无明显反对声音,但有用户提到即使使用基础模型也可能存在“AI smell”。
  2. 🔥 使用旧模型作为基础是一个合理的选择
    • 正方观点:用户认为旧模型因为没有“GPT-isms”或“slop”问题而更具吸引力。
    • 反方观点:无明显反对声音,但有用户提到新模型是否真的如描述的那样“sloppy”。
  3. 💡 建议使用DPO/KTO等技术来减少模型中的“slop”
    • 解释:用户提出这些技术可能有助于进一步优化模型的性能。
  4. 👀 模型在故事写作方面的表现不佳
    • 解释:用户对模型在故事写作方面的表现表示困惑,认为其更适合角色扮演。
  5. 🚀 期待公开模型的微调数据集
    • 解释:用户对数据集的透明度表示关注,希望了解更多的技术细节。

金句与有趣评论

  1. “😂 I’ve been thinking about using an older model as a base too. Since they’re GPT slop free lol.”
    • 亮点:幽默地表达了用户对旧模型的好感。
  2. “🤔 Omfg I literally just started pre training a pruned LLama 33B for the same reason of GPTisms ruining my BlackSheep models!”
    • 亮点:展示了用户对模型训练的浓厚兴趣和实际操作。
  3. “👀 I’m not sure if I’m doing something wrong but I’m having a hard time getting this model to write much without stopping.”
    • 亮点:反映了用户在使用模型时的实际困惑和挑战。
  4. “🚀 At some point we plan to release the datasets and our methodology, but that will be after our GQA implementation or other projects.”
    • 亮点:透露了未来可能公开数据集的计划,增加了透明度。
  5. “💡 I think messing with tokenizer is a good potential idea to remove gptisms.”
    • 亮点:提出了一个创新的技术解决方案,引发了进一步的讨论。

情感分析

讨论的总体情感倾向是积极的,用户对Zeus Labs的工作表示认可,并对新模型的改进表示赞赏。主要的分歧点在于模型在故事写作方面的表现,部分用户对此表示困惑和不满。可能的原因是模型主要专注于多轮角色扮演,而非单轮故事写作。

趋势与预测

  • 新兴话题:模型在故事写作方面的应用和优化可能会引发后续讨论。
  • 潜在影响:随着更多用户尝试和反馈,模型在不同应用场景中的表现将得到进一步优化,可能推动相关领域的技术进步。

详细内容:

标题:Zeus Labs 推出改进版的 Chronos-Divergence-33B 模型引发 Reddit 热议

Zeus Labs 带来了一项令人瞩目的创新——Chronos-Divergence-33B 模型。该模型基于经典的原始 LLaMA 1 模型进行改进,一经发布就在 Reddit 上引发了热烈讨论。原帖获得了众多关注,评论数众多。

帖子主要介绍了该模型将原始模型的序列长度从 2048 大幅提升至 16,384 有效令牌,仅使用约 500M 令牌的新微调数据,就能长时间连贯写作,且几乎没有其他模型常见的重复性问题。同时提供了模型卡的链接(https://huggingface.co/ZeusLabs/Chronos-Divergence-33B)供用户查看技术细节和量化信息。

讨论焦点与观点分析: 有人表示自己也一直在考虑使用旧模型作为基础,因为它们没有“GPT 式的冗余”,称赞了这项工作。还有用户称自己出于同样的原因刚刚开始预训练修剪过的 LLama 33B,并感慨开源社区对自己的想法予以了验证。有人提出训练并合并该模型。也有人认为现在有了更好的数据集,这很有趣。 有用户询问是否能对像 Command-R 这样的新模型做类似处理,有人认为 Command-R 模型存在一些问题,如助理偏差等,并推荐了 InternLM 20B 模型。还有人认为仅靠 DPO 是不够的,ORPO 或在预训练原始文本切片上进行 SFT 更好,但仍不完美。有人提出通过调整系统提示可以获得更长的结果。有人反映该模型在故事写作方面表现不佳,也有人表示通过调整设置可以改善。有人指出目前该模型产生的响应比自己习惯的短,还有人对模型的速度表示不满,也有用户分享了提高速度的方法。

总之,对于 Zeus Labs 推出的这款新模型,大家讨论热烈,既有对其创新的肯定,也有对其在某些方面表现不足的探讨。