原贴链接

大家新年快乐!首先,我想感谢大家使用Unsloth(https://github.com/unslothai/unsloth/)进行微调。我们得到了大家极大的支持,这对我们意义非凡!目前我们的团队只有两人,但我们已经有了很多2025年的想法,不过我们很想听听大家的意见!你们希望明年在Unsloth里看到什么?你们可以提出任何想法,无论是非常宏大的,还是很微小的!也许是扩散模型/语音识别(Diffusion/Whisper)支持或者Unsloth的检索增强生成(RAG),又或者只是简单的模型/苹果系统支持。不管是什么,我们都想知道!我们还想知道:什么对你们来说是好用的,什么是不好用的?缺少了哪些功能?我们如何让Unsloth更容易使用或理解?更好的文档或者指南(比如创建数据集方面的)是否会有帮助?再次感谢大家与我们一同踏上这段旅程,祝大家微调愉快!附言:我会回复每一条评论,确保听到每个人的声音。

讨论总结

Unsloth团队发起关于2025年Unsloth发展期望的讨论,大家纷纷提出自己的看法。包括各种功能需求如多GPU支持、全微调支持、API需求、UI需求等,也有对特定模型支持的期待,还有关于文档教程方面的建议,以及一些硬件支持方面的诉求,整体讨论积极向上,大家都希望Unsloth能更好地发展。

主要观点

  1. 👍 希望Unsloth支持多GPU
    • 支持理由:像Axolotl免费支持多GPU,Unsloth在付费计划中有但存在不足,并且很多人有多GPU设备。
    • 反对声音:Unsloth团队之前优先考虑支持更多模型和提高可访问性,因为相关技术耗时且多数用户单GPU够用。
  2. 🔥 期待Unsloth有原生苹果支持
    • 正方观点:很多Mac用户可让训练运行数天,使用云GPU成本很高,苹果用户众多。
    • 反方观点:无明显反对声音。
  3. 💡 希望Unsloth在免费层有至少支持4个GPU的多GPU支持
    • 解释:免费开源能让更多用户受益,不少用户有这样的需求。

金句与有趣评论

  1. “😂 Also Apple/Mac support would be dope so I can train locally on my MacBook Pro would be chef’s kiss.”
    • 亮点:以诙谐的方式表达对苹果支持的强烈渴望。
  2. “🤔 I think as Unsloth you could play a significant role in both open - source and cloud - based solutions.”
    • 亮点:从宏观角度阐述了Unsloth在开源和云解决方案方面的潜力。
  3. “👀 I’m pretty sure PPO already works though you’ll need to add it in manually.”
    • 亮点:针对PPO功能进行简洁的说明。

情感分析

总体情感倾向是积极正面的。主要分歧点在于功能开发的优先级上,例如多GPU支持,团队认为多数用户单GPU够用所以先考虑其他方面,而部分用户则希望尽快实现多GPU支持。原因是不同用户群体的硬件设备、使用场景和需求不同。

趋势与预测

  • 新兴话题:对新模型(如deepseek/Janus)的微调、不同架构(Diff transformer、nGPT和MLA)的支持。
  • 潜在影响:如果这些功能实现,将吸引更多不同需求的用户使用Unsloth,扩大用户群体,在开源模型微调领域可能占据更重要的地位。

详细内容:

《关于 Unsloth 2025 年发展的热门讨论》

新年伊始,Unsloth 团队在 Reddit 上发布了关于 2025 年发展规划的讨论帖,引起了众多用户的关注。该帖收获了大量点赞和丰富的评论。

帖子主要内容是团队感谢用户对 Unsloth 的支持,并表示尽管目前团队只有两人,但已有不少 2025 年的想法,同时希望倾听用户的建议。用户可以提出任何想法,无论是宏大的还是细微的。

此帖引发了多方面的讨论,包括对 UI 界面的需求、Apple 及 AMD 等硬件的支持、各种训练模式和技术的改进、模型的兼容性等。

讨论焦点与观点分析

有人表示作为新手,希望有一个对初学者友好的 UI 界面,还希望有 Apple/Mac 的支持,以便能在 MacBook Pro 上进行本地训练。有人提出创建具有成本效益和实验性的标注数据集以在 Unsloth 环境中训练的想法,并认为随着新模型的出现,创建有效的数据集和训练参数至关重要。

还有人建议增加分布式训练、PPO 示例的相关笔记本、模型的蒸馏和修剪教程、支持多 GPU 训练、能够加载多个 LoRA 到基础模型且无需合并等。有人提到在进行 QLoRA 时能将模型的某些层卸载到 CPU 并通过 PCIe 按需流式传输到 GPU 的设想。

对于 UI 界面,有人认为 Gradio 不错,也有人倾向于 Tailwind.css OpenWebUI 质量的界面。有人希望有一个 API,通过 Docker 构建能导出一个 REST API,方便进行训练、状态查询和模型下载等操作。

关于模型支持,用户提出了对 Florence2、paligemma2、Mixtral 等模型的支持需求,以及对序列分类任务、多 GPU 支持、Intel 支持、AMD 支持等方面的期望。

在讨论中,也有一些共识,比如大家都认为 Unsloth 很棒,但在某些方面还需要改进和完善。一些独特的观点如关于模型权重的卸载方式等,为讨论增添了新的思考方向。

总之,这次关于 Unsloth 未来发展的讨论十分热烈且富有建设性,用户们积极提出各种建议和需求,团队也在认真倾听和回应,共同期待 Unsloth 在 2025 年能有更出色的表现。