原贴链接

Mistral为我们提供了一个功能强大的新的Apache 2.0模型,不仅如此,我们终于也得到了一个可供使用的基础模型。在经历了几个具有更多限制许可的模型之后,这个开源版本是一个惊喜。自由被‘赎回’了。

对于这个模型,我采用了一种不同的方法——它不太用于典型的终端用户,更多是为微调社区而设计的。虽然它在一般用途上仍然有些可用性,但我不特别推荐用于该用途。

这个模型是什么?

这是Mistral 24B基础模型的一个轻度微调版本,被设计为一个可访问且可适应的进一步微调与合并素材的基础。主要修改包括:

  • 被ChatML化,没有引入额外的标记。
  • 高质量的私有指令——不是由ChatGPT或Claude生成的,确保没有冗余并且对markdown有良好的理解。
  • 没有拒绝情况——因为它是一个基础模型,拒绝情况应该极少甚至不存在,不过在早期测试中,偶尔还是会出现警告(我猜有些是预训练中产生的)。
  • 高质量的私有创意写作数据集——主要是为了进一步稀释预训练中的冗余,但它实际上能写一些故事,在损失约8的情况下还不错。
  • 小而高质量的私有角色扮演(RP)数据集——这样做是为了使进一步针对角色扮演的微调更容易。数据集保持很小并且包含‘零冗余’,有些条目长度为16k个标记。
  • 对角色卡片有出色的遵循性——这样做是为了使针对角色扮演的进一步微调更容易。

简短总结

  • Mistral 24B基础模型。
  • 被ChatML化。
  • 开箱即用可进行角色扮演。
  • 对角色卡片有出色的遵循性。
  • 轻度调优指令,保持高损失,允许大量的进一步学习。
  • 对微调者有用。
  • 非常有创意。

关于这个基础模型的其他想法

鉴于现代模型多么专注于获得基准测试,我确实能感觉到有些东西是预训练中就存在的,因为这确实是一个基础模型。

例如,在角色扮演中你会看到像‘他正在等待你的回应…’这样的话,这是一个典型的冗余短语。这很有趣,因为这个短语在用于训练这个模型的数据的任何部分都不存在。所以,我得出结论,它来自预训练中的各种泛化,这些泛化是以助手为导向的,它们的目标是在微调后产生一个更强大的助手。这纯粹是我自己的推测,我可能过度解读了。

我注意到的另一件事是,当我微调其他一些基础模型时,这个模型非常连贯,而训练是在8的极高损失下停止的。这在某种程度上证实了我的推测,即基础模型的预训练方式使其对以助手为导向的任务更具接受性(毕竟这是有道理的)。

基础模型中存在一些冗余,低语、颤抖,都是常见的问题。我们已经到了可能所有未来模型都会被AI冗余‘毒害’的地步,有些将包含数万亿个合成数据标记,这就是现状,而且这种状况还在持续。已经有各种采样器、DPO等方法来解决这个问题……就是这样。

享受这个模型吧 :)

https://huggingface.co/SicariusSicariiStuff/Redemption_Wind_24B

讨论总结

这个帖子主要介绍了Redemption_Wind_24B模型,这是一个基于Mistral 24B的轻调版本,适合微调者使用。评论者们的观点多样,有的对模型表示认可,有的对模型微调相关问题提出疑问,还有对模型中的slop问题存在争议,同时也涉及到模型在不同场景下的应用和操作等话题。

主要观点

  1. 👍 这个模型看起来是经过深思熟虑的成果
    • 支持理由:从模型的多种特性如ChatML - ified、可角色扮演等方面体现出成果的完整性
    • 反对声音:无
  2. 🤔 对Mistral Small 24B相比其他模型更适合微调表示质疑
    • 正方观点:除了Mistral宣传资料,没有更多依据表明其更适合微调
    • 反方观点:原帖作者可能基于模型的某些特性如层数少加快推理速度等认为其适合微调
  3. 🔥 不认同所有未来模型会被AI slop污染
    • 正方观点:列举Phi - 4、Claude等模型说明并非如此,认为是英语语言内在属性
    • 反方观点:认为是预训练中的合成指令数据或RLHF导致,基础模型和基于人类数据微调的旧模型不存在这种情况
  4. 💡 新模型可能促使自己开始重新训练
    • 解释:之前拖延用自己数据集重新训练当前模型,新模型有价值促使自己行动
  5. 😎 希望基于新模型构建好的RP模型
    • 解释:认为新模型有趣,期待构建低冗余等理想的RP模型

金句与有趣评论

  1. “😂 This looks like a thorough and well - considered effort.”
    • 亮点:这是对模型成果的一个积极肯定,开启了讨论的积极氛围。
  2. “🤔 Will you release the datasets you used for the fine tuning?”
    • 亮点:提出了关于微调数据集公开性的关键问题,是很多想进行再微调者关心的问题。
  3. “👀 I think I agree that slop is not a result of it being in the training data. I think it intrinsic property of English language, that forces for whatever reasons the models to converge towards slop words.”
    • 亮点:提出了对模型中slop问题的独特见解,引发了后续的争议讨论。
  4. “😎 Sounds very interesting! I hope some good RP models can be built on top of it!”
    • 亮点:表达了对新模型的兴趣以及对基于新模型构建RP模型的期待。
  5. “💡 Nice! I’ve been putting off retraining the current generation of models on my datasets. This might be what finally gets me off my ass to do it.”
    • 亮点:生动地表达了新模型对评论者的激励作用。

情感分析

总体情感倾向是积极的,大部分评论者对新模型持认可态度,或对其在不同场景下的应用表示期待。主要分歧点在于对模型中slop问题的看法,可能的原因是大家对模型训练的理解、对不同模型的认知以及对语言本身特性的理解不同。

趋势与预测

  • 新兴话题:模型在手机上运行时的性能比较以及和其他模型的智能程度对比可能会引发后续讨论。
  • 潜在影响:如果更多人开始在这个模型基础上进行微调或构建新模型(如RP模型),可能会推动相关领域在角色扮演、模型应用等方面的发展。

详细内容:

标题:关于新型 finetuners 模型 Redemption_Wind_24B 的热门讨论

Reddit 上出现了一个关于新型 finetuners 模型 Redemption_Wind_24B 的热门帖子,引发了众多关注和热烈讨论。该帖子介绍了这一模型的特点和优势,获得了大量的点赞和众多评论。

帖子主要讨论了这个模型的一系列特性,如它是 Mistral 24B 的轻量微调版本,采用了 ChatML 化处理,具有高质量的私人指令,几乎没有拒绝情况,拥有高质量的创意写作和角色扮演数据集,对角色卡的遵循表现出色,经过温和调整的指令使其在高损失情况下仍允许大量进一步学习,对微调者非常有用且极具创意等。

讨论焦点与观点分析: 有人认为这是一次周全且深思熟虑的努力,比如有人提到该模型的 Apache2 许可和基础模型的性质很特别,数据集包含了很多人们捐赠的私人数据,而训练停止时高达 8.0 的损失也很特别。同时,关于模型在手机和低端消费硬件上的运行情况也有讨论,有人质疑 24B 模型能否在这类设备上运行,而发布者表示量化后是可行的。 有人表示自己因为这个模型终于有动力重新训练当前一代模型。 还有人对模型中可能存在的“AI 糟粕”等问题展开了争论。有人认为未来模型都会受到“AI 糟粕”的影响,但也有人持不同意见,认为这并非训练数据导致,而是英语语言的内在特性,或者是 GPT 3.5 / GPT 3.5 Turbo 的 RLHF 导致的。 有人认为希望能基于此模型构建出优质的 RP 模型,发布者表示自己肯定会尝试。 有人分享了在手机上运行该模型的经历和相关数据。

总之,关于 Redemption_Wind_24B 模型的讨论展现了大家对其性能、应用前景以及可能存在问题的关注和思考。