原贴链接

大家好,想问问那些在现有模型上做过微调的人。到目前为止,你们最喜欢哪个模型?为什么比起其他模型更喜欢它呢?例如,我经常看到Phi模型还不错,但往往有点‘缺乏活力’。我想知道它是否仍然是一个微调的良好基础模型呢?例如,有人比较过微调后的Llama和Phi的结果吗?感谢大家的回复!

讨论总结

这是一个关于微调最喜欢的模型的讨论。不同的评论者分享了自己在微调时偏好的模型,如mistral 7B、Gemma2、llama3.2 3B、Yi capybara tess 34b等,并阐述了选择这些模型的原因,包括模型的性能、对特定任务的适应性、资源占用情况以及与数据集的整合能力等,整体氛围是积极的技术交流。

主要观点

  1. 👍 大多使用mistral 7B进行微调
    • 支持理由:评论者Mbando表明自己在微调时主要使用该模型
    • 反对声音:无
  2. 🔥 Gemma2模型理论上有优势但未尝试,实际存在VRAM需求高的问题
    • 正方观点:ttkciar认为其有全面技能集且每层训练激活低
    • 反方观点:TheLocalDrummer指出其词汇量大导致VRAM密集
  3. 💡 llama3.2 3B善于遵循指令,适合微调
    • 支持理由:dash_bro提到它善于遵循指令,还列举使用案例
    • 反对声音:无
  4. 🤔 Yi capybara tess 34b在微调时有很好的效果,对数据集适应性好
    • 支持理由:评论者提到该模型在功能等多方面没有明显损失,能很好适应数据集
    • 反对声音:无
  5. 😎 Yi 34b和小Yi模型是微调的较好选择,自然对话表现好
    • 支持理由:FullOf_Bad_Ideas表示自己多次微调这些模型且有相关研究提及,34b非1.5版本自然对话佳
    • 反对声音:无

金句与有趣评论

  1. “😂 I’ve mostly used mistral 7B.”
    • 亮点:直接表明自己主要使用的微调模型。
  2. “🤔 Interested to hear what people have to say about this. "On paper" Gemma2 models look enticing, because they have a comprehensive skill set and fairly low per - layer training activations (most relevant for frozen - layer continued pretraining, but also impacts LoRA memory requirements) but I haven’t actually tried it yet.”
    • 亮点:阐述Gemma2模型理论上的吸引力以及自己未尝试的情况。
  3. “👀 llama3.2 3B has become a favorite to fine - tune for me. It’s good at following instructions, that’s mainly why I do it.”
    • 亮点:说明llama3.2 3B成为自己微调最爱是因为善于遵循指令。
  4. “😎 For whatever reason it just seemed to "take" to my dataset really well.”
    • 亮点:形象地表达Yi capybara tess 34b模型对数据集的良好适应性。
  5. “💡 Yi 34b (non 1.5), is poor at math and code, but it’s good for natural conversations.”
    • 亮点:指出Yi 34b非1.5版本在数学和代码能力差但自然对话能力佳的特点。

情感分析

总体情感倾向是积极的,大家都在分享自己在微调模型方面的经验和见解。主要分歧点在于不同模型在不同任务上的表现,如Gemma2模型理论与实际的差异,这可能是因为不同模型的结构和训练方式不同,以及各自所针对的任务需求不同导致的。

趋势与预测

  • 新兴话题:不同模型在不同任务改进需求下的选择标准可能会引发后续讨论。
  • 潜在影响:有助于人们在进行模型微调时更有针对性地选择模型,提高微调的效率和效果,推动相关技术在不同领域的应用。

详细内容:

标题:热门讨论——关于模型微调的偏好探索

在 Reddit 上,有一个引起广泛关注的帖子,题为“ What is your favorite model for fine-tuning? ”,它获得了众多的点赞和大量的评论。原帖主要询问了那些进行过模型微调的人,他们最喜欢的模型是什么以及原因。这引发了一场关于各种模型微调的热烈讨论。

讨论焦点与观点分析:

有人表示自己大多使用 mistral 7B 。还有人提到,从理论上看,Gemma2 模型很吸引人,因其具备全面的技能集和较低的每层训练激活,但尚未实际尝试。也有人指出 Gemma 2 模型的 256k 词汇量使得其对 VRAM 需求很高,相比之下,Mistral 的 22B 只有 32k 词汇量,在 8x 48GB 的设置中能充分微调 22B 且还有余量,而在 8x 80GB 中都很难适配 9B 。有人感谢他人指出这一点,并表示自己对训练内存数学的理解主要来自 https://shjwudp.github.io/blog/2023/gpt - training - memory - estimation - nemo - training - practice/ ,之前推导时存在错误,现在认识到词汇量大小对内存需求的影响更显著。

有人认为 llama3.2 3B 是自己喜欢用于微调的模型,因为它善于遵循指令。并且分享了详细的案例,包括先手动生成高质量样本,进行句子分析,使用 spacy 编写检测策略,根据句子复杂程度注入相关示例,利用大型模型生成复杂到简单的句子,由团队进行校正,将样本格式化并在不同模型上进行微调测试等一系列操作。

还有人表示 Yi capybara tess 34b 取得了最佳结果,可能是因为它与自己的数据集适配良好,并且怀疑是由于其是使用的最大模型。有人提到对 Qwen 模型的再次尝试在待办事项中。

有人称 Yi 34b 及更小的 Yi 模型进行了约 50 次微调,甚至因在斯坦福的研究论文中获得好结果而被提及。还提到 Yi 34b 在数学和代码方面表现不佳,但在自然对话中表现良好,可在单个 3090 上进行微调及推理。

有人指出微调模型的选择取决于想要改进的任务,除非进行完整微调,对于大多数模型来说是 PEFT(如 LoRA),只能改进模型在不太擅长的任务上的表现。

讨论中的共识在于大家都在积极分享自己的经验和见解,以寻找最适合的微调模型。不同观点的争论主要集中在各模型的优缺点以及在不同任务和数据集中的表现。特别有见地的观点如对模型词汇量对内存需求影响的深入分析,丰富了整个讨论。

总之,这场关于模型微调的讨论为相关从业者和爱好者提供了丰富的信息和思考方向。