大家好！👋

Zeus Labs 带着过去的回忆回来了——还记得最初的 LLaMA 1 模型吗？我们一直在研究和改进，现在很高兴向大家介绍 Chronos-Divergence-33B！

我们大幅提升了原始模型的序列长度，从 2048 增加到 16,384 个有效标记！即使只使用了约 5 亿个新的微调数据标记，它现在也能长时间保持连贯性，最多可达 12,000 个标记。

最独特的地方？它几乎没有其他模型中常见的重复的“GPT 风格”或“杂乱”。我们彻底清理了数据集，并专注于保留 L1 的“魅力”。如果这个模型受到欢迎，我们甚至可能将其引入更小的模型或新的模型中。

到目前为止，我们对结果相当满意，尽管我们还没有运行任何传统的基准测试。我们很快会进行一些评估，但并不期望一个专注于角色扮演的老模型能带来太多惊喜。

查看模型卡片以获取所有技术细节和可用的量化信息：https://huggingface.co/ZeusLabs/Chronos-Divergence-33B

让我们知道你的想法！💬

讨论总结

Zeus Labs推出的Chronos-Divergence-33B模型在Reddit上引发了广泛的讨论，主要集中在模型的技术改进和使用体验上。用户普遍赞赏该模型在减少“GPT-isms”和“slop”方面的表现，认为这是一个显著的进步。讨论中还涉及到模型的训练数据集、性能优化、以及在故事写作和角色扮演方面的应用。尽管有一些用户对模型的速度和生成文本的长度表示不满，但整体上，讨论氛围积极，用户对新模型的潜力表示期待。

主要观点

👍 Chronos-Divergence-33B模型没有“GPT-isms”或“slop”问题
- 支持理由：用户认为这是模型的一大优势，使其在生成文本时更加流畅和自然。
- 反对声音：无明显反对声音，但有用户提到即使使用基础模型也可能存在“AI smell”。
🔥 使用旧模型作为基础是一个合理的选择
- 正方观点：用户认为旧模型因为没有“GPT-isms”或“slop”问题而更具吸引力。
- 反方观点：无明显反对声音，但有用户提到新模型是否真的如描述的那样“sloppy”。
💡 建议使用DPO/KTO等技术来减少模型中的“slop”
- 解释：用户提出这些技术可能有助于进一步优化模型的性能。
👀 模型在故事写作方面的表现不佳
- 解释：用户对模型在故事写作方面的表现表示困惑，认为其更适合角色扮演。
🚀 期待公开模型的微调数据集
- 解释：用户对数据集的透明度表示关注，希望了解更多的技术细节。

金句与有趣评论

“😂 I’ve been thinking about using an older model as a base too. Since they’re GPT slop free lol.”
- 亮点：幽默地表达了用户对旧模型的好感。
“🤔 Omfg I literally just started pre training a pruned LLama 33B for the same reason of GPTisms ruining my BlackSheep models!”
- 亮点：展示了用户对模型训练的浓厚兴趣和实际操作。
“👀 I’m not sure if I’m doing something wrong but I’m having a hard time getting this model to write much without stopping.”
- 亮点：反映了用户在使用模型时的实际困惑和挑战。
“🚀 At some point we plan to release the datasets and our methodology, but that will be after our GQA implementation or other projects.”
- 亮点：透露了未来可能公开数据集的计划，增加了透明度。
“💡 I think messing with tokenizer is a good potential idea to remove gptisms.”
- 亮点：提出了一个创新的技术解决方案，引发了进一步的讨论。

情感分析

讨论的总体情感倾向是积极的，用户对Zeus Labs的工作表示认可，并对新模型的改进表示赞赏。主要的分歧点在于模型在故事写作方面的表现，部分用户对此表示困惑和不满。可能的原因是模型主要专注于多轮角色扮演，而非单轮故事写作。

趋势与预测

新兴话题：模型在故事写作方面的应用和优化可能会引发后续讨论。
潜在影响：随着更多用户尝试和反馈，模型在不同应用场景中的表现将得到进一步优化，可能推动相关领域的技术进步。

详细内容：

标题：Zeus Labs 推出改进版的 Chronos-Divergence-33B 模型引发 Reddit 热议

Zeus Labs 带来了一项令人瞩目的创新——Chronos-Divergence-33B 模型。该模型基于经典的原始 LLaMA 1 模型进行改进，一经发布就在 Reddit 上引发了热烈讨论。原帖获得了众多关注，评论数众多。

帖子主要介绍了该模型将原始模型的序列长度从 2048 大幅提升至 16,384 有效令牌，仅使用约 500M 令牌的新微调数据，就能长时间连贯写作，且几乎没有其他模型常见的重复性问题。同时提供了模型卡的链接（https://huggingface.co/ZeusLabs/Chronos-Divergence-33B）供用户查看技术细节和量化信息。

讨论焦点与观点分析：有人表示自己也一直在考虑使用旧模型作为基础，因为它们没有“GPT 式的冗余”，称赞了这项工作。还有用户称自己出于同样的原因刚刚开始预训练修剪过的 LLama 33B，并感慨开源社区对自己的想法予以了验证。有人提出训练并合并该模型。也有人认为现在有了更好的数据集，这很有趣。有用户询问是否能对像 Command-R 这样的新模型做类似处理，有人认为 Command-R 模型存在一些问题，如助理偏差等，并推荐了 InternLM 20B 模型。还有人认为仅靠 DPO 是不够的，ORPO 或在预训练原始文本切片上进行 SFT 更好，但仍不完美。有人提出通过调整系统提示可以获得更长的结果。有人反映该模型在故事写作方面表现不佳，也有人表示通过调整设置可以改善。有人指出目前该模型产生的响应比自己习惯的短，还有人对模型的速度表示不满，也有用户分享了提高速度的方法。

总之，对于 Zeus Labs 推出的这款新模型，大家讨论热烈，既有对其创新的肯定，也有对其在某些方面表现不足的探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#