嘿!Unsloth现在支持视觉/多模态模型(Llama、Pixtral、Qwen、Llava)了!Unsloth使视觉语言模型(VLM)的微调速度提高2倍,且内存使用量减少多达70%。1. Llama 3.2 Vision(11B)现在可在Colab T4 16GB VRAM的GPU中运行。Colab Notebook;2. 我们将包括Llama 3.2 Vision在内的视觉模型以原始16位和预量化4位(下载速度提高4倍)上传到[Hugging Face](https://huggingface.co/collections/unsloth/llama - 32 - vision - 673b04868f51fde3c5786e72)。huggingface.co/unsloth;3. Qwen2 VL - 数学OCR到LaTeX:Colab Notebook;4. Pixtral(12B)2409原本无法在16GB VRAM中运行,但现在可以了!Colab Notebook;5. Kaggle笔记本每周提供30小时免费GPU:Llama 3.2 Vision(11B)[Kaggle Notebook](https://www.kaggle.com/code/danielhanchen/llama - 3 - 2 - vision - finetuning - unsloth - kaggle)和Qwen 2 VL(7B)[Kaggle Notebook](https://www.kaggle.com/code/danielhanchen/qwen2 - vision - finetuning - unsloth - kaggle);6. 可以将微调结果直接导出为16位合并模型用于推理。Ollama也能运行Llama 3.2 Vision,所以也可以正常工作。目前只有视觉语言模型(VLM)的指令版本可以工作,但我们也在努力支持基础版本。https://llminfo.image.fangd123.cn/images/pv5aprx59b2e1.png!/format/webp。指令视觉语言模型(16位、4位bitsandbytes)上传:(表格内容略)。完整的上传模型集合:[https://docs.unsloth.ai/get - started/all - our - models](https://docs.unsloth.ai/get - started/all - our - models)。即将推出包括视觉微调最佳实践、技巧等在内的逐步教程。我添加了一个新的FastVisionModel模块来代替FastLanguageModel。请在视觉模型中使用这个模块。(代码部分略)并且现在可以选择性地选择想要微调视觉模型的哪些部分。最后,要更新Unsloth,请运行pip install --upgrade --no - cache - dir unsloth unsloth_zoo
。(示例部分略)我知道你们有些人之前就要求视觉支持 - 非常感谢你们的耐心!谢谢!
讨论总结
原帖主要是关于Unsloth支持多种视觉/多模态模型(如Llama、Pixtral、Qwen、Llava等),其具有使微调速度加快、节省内存等优势。评论者们大多对原帖内容持积极态度,表达认可、感激,也有人提出一些技术相关的疑问和自己在相关模型使用过程中的经历、遇到的问题,还有人表达想要尝试这些模型微调的意愿。
主要观点
- 👍 微调VLMs比LLMs困难,但VLMs潜力巨大,开源的VLMs表现优异,甚至优于专有替代方案
- 支持理由:评论者提到自己的使用场景中发现微调VLMs的情况并与LLMs比较,以及开源VLMs的表现情况
- 反对声音:无
- 🔥 对原帖所涉内容(Unsloth对模型的支持等)表示高度认可和赞赏
- 正方观点:原帖提到Unsloth的优势并且有很多成果展示,如多种模型支持、速度和内存方面优化等
- 反方观点:无
- 💡 在表格提取中合并单元格是个问题,希望vlm微调有助于解决
- 解释:MatlowAI提出问题,danielhanchen认为vlm微调可能有帮助并给出创建数据集的解决思路
- 🤔 原帖作者履行了承诺,成果值得称赞
- 解释:原帖提到的功能如在Unsloth中支持多种模型等确实实现了
- 😎 对开源且免费的工作成果表示喜爱与感激
- 解释:Educational_Rent1059认为这种开源免费的行为很棒且前所未闻
金句与有趣评论
- “😂 MatlowAI:Well I’ve been meaning to look into vlm fine tuning and I guess this is as good an excuse as any!”
- 亮点:表达出一直想研究vlm微调,借此帖机会开始的想法
- “🤔 MatlowAI:Merged cells in table extraction I found problematic with most vlms I wonder if we can do something about that 🤔”
- 亮点:提出在表格提取中的合并单元格问题,引发后续关于解决办法的讨论
- “👀 mikael110:那很棒。微调VLMs是我发现的与LLMs相比相当困难的事情。并且那里有巨大的潜力。”
- 亮点:对比微调VLMs和LLMs的难度,强调VLMs的潜力
- “😎 Few_Painter_5588: Ayoooo, y’all are legends for this😎”
- 亮点:用很口语化且热情的方式表达对原帖内容的认可
- “👍 dammitbubbles:Really fantastic work.”
- 亮点:简洁地表达对帖子中工作的赞赏
情感分析
总体情感倾向是积极的。主要分歧点较少,大部分评论者都认可原帖内容。可能的原因是原帖所提到的Unsloth对多种视觉/多模态模型的支持、优化等成果对关注这一领域的人来说是积极有益的。
趋势与预测
- 新兴话题:关于4位bnb量化微调是否存在问题以及Unsloth的Colab笔记本相关设置(如对Qwen是否使用动态分辨率)等话题可能会引发后续讨论。
- 潜在影响:如果Unsloth对这些模型的支持持续优化,可能会推动更多人使用这些视觉/多模态模型进行微调等操作,在视觉语言处理等相关领域可能会产生更多的应用成果。
详细内容:
标题:Llama 3.2 Vision 微调在 Unsloth 中的新突破
这则热门帖子在 Reddit 上引起了广泛关注,收获了众多点赞和大量评论。原帖主要介绍了 Vision/multimodal 模型(如 Llama、Pixtral、Qwen、Llava)在 Unsloth 中的支持情况。Unsloth 使得 VLMs 的微调速度提高了两倍,内存使用减少了 70%。
帖子提供了多个相关的链接,包括 Colab Notebook、Hugging Face 页面、Kaggle Notebook 等,还详细列举了不同模型的权重和量化方式。
帖子引发的主要讨论方向包括对模型微调的期待和实际操作中的问题与经验分享。
讨论焦点主要集中在以下几个方面: 有人表示一直期待进行 vlm 微调,好奇是否能解决表格提取中合并单元格的问题。 有人认为与 LLMs 相比,VLMs 的微调较难,但潜力巨大,特别是能结合领域特定知识进行微调将带来巨大提升。 还有人询问能否为特定模型更换图像编码器,以及在微调 4 位 bnb 量化时是否存在问题。
有人分享道:“我一直在寻找 vlm 微调的标准化流程,每个模型都有自己的特点和调整,比如掩盖图像标记或使用正确的聊天模板。”
也有人提到:“大部分使用场景较为小众,所以微调是必须的。期待微调后的 Qwen2 - VL 能有出色表现。”
讨论中的共识在于大家都对 Unsloth 带来的新功能表示期待和兴奋,认为其有可能推动更多创新和应用。
特别有见地的观点如:通过合并数据集、生成合成数据等方法来解决实际问题,丰富了讨论的思路和方法。
总的来说,这一话题在 Reddit 上引发了热烈的讨论,为相关领域的爱好者和从业者提供了交流和学习的平台。
感谢您的耐心阅读!来选个表情,或者留个评论吧!