模型与技术 训练与微调技术

LLM训练错误修复 - 梯度累积错误

[原帖提到LLM训练中梯度累积的错误修复,评论者对修复工作表示赞赏、感谢、提出疑问或展开相关技术讨论,整体氛围积极正面]

 ·  · 
模型与技术 训练与微调技术

英特尔首次开放分布式大语言模型INTELLECT - 1的训练

[关于首个开放分布式LLM - INTELLECT -1的训练,讨论涉及硬件资源、计算效率、许可发布等多方面,观点有正面期待也有质疑,氛围较为理性]

 ·  · 
模型与技术 训练与微调技术

惊讶于未见Llama 3.2(11B)的通用或RP微调

[围绕Llama 3.2 (11B)缺乏通用或RP微调展开讨论,涉及模型结构、性能、在游戏中的应用、技术支持、与其他模型比较等多方面内容,讨论氛围积极热烈]

 ·  · 
模型与技术 训练与微调技术

使用Transformer(TRL)时小批量大小和梯度累积微调效果差

[原帖提出使用特定库微调时小批量和梯度累积性能差,评论者有的表示感谢原帖分享,有的进行技术讨论、提出疑问、分享实验结果或表达希望解决问题等内容,整体氛围较为积极探索]

 ·  · 
模型与技术 训练与微调技术

本地训练逆袭:Impish_LLAMA_3B的诞生记

硬件投资和电力消耗也是隐性成本。

 ·  · 
模型与技术 训练与微调技术

重要更新:无损失连续微调技术新突破

讨论围绕“Continuous Fine-tuning Without Loss Using Lora and Mergekit”方法展开,主要探讨LoRA合并的权重分配、TIES算法的优势、模型优化的具体细节,以及该方法对基础模型和指令微调的影响。

 ·  · 
模型与技术 训练与微调技术

如何微调大型语言模型?

讨论围绕如何微调大型语言模型(LLM)展开,提供了多种资源和实用建议,涵盖了从本地环境到云实例的多种解决方案。

 ·  · 
模型与技术 训练与微调技术

Llama 3.2 3B 无审查微调模型探讨

原贴链接 我们有什么?我在寻找: 无审查(不是NSFW,我正在制作有用的东西) 如果是GGUF,如果不是已经在Ollama上 Llama 3.2 3B 我希望Teknium能用Hermes开放它,但我并不抱太大希望。有人有好用的吗? 详细内容: 标题:关于 Llama 3.2 3B 无审查精细调整的热门讨论 在 Reddit 上,一篇题为“Llama 3.2 3B Uncensored Fine-Tunes?”的帖子引起了广泛关注。该帖子的作者正在寻找无审查、GGUF 格式且为 Llama 3.2 3B 的内容,并期待 Teknium 能与 Hermes 一起开放相关内容,但对此不抱太大希望。此帖获得了众多的回复和讨论。 讨论的焦点主要集中在以下几个方面: 有人分享了相关的链接,如 https://huggingface.co/mylesgoose/Llama-3.2-3B-instruct-abliterated-Q8_0-GGUF ,并对一些术语进行了探讨,比如“abliterated”的含义。有人提供了相关的解释/指南链接:https://huggingface.co/blog/mlabonne/abliteration 。 有用户表示自己是一名作家,将 LLMs 当作身旁的活人来交流,通过它来完善自己的写作,比如询问“这样读起来是否太不连贯?”等问题,并打算对模型进行精细调整,以提高工作效率和增加收入。但同时也对精细调整后的模型效果存在疑虑,比如担心 13B 模型的“智能”是否能达到预期,能否像自己一样写作并节省时间,还是需要专注于 70B+的模型。 有人分享自己尝试 3.2 abliterated 的个人经历,称其和原始版本似乎没什么不同,而另有人则表示无审查的版本确实没有审查限制。 有用户提到自己拥有 136GB 的 VRAM,几个月前刚搭建了第一个 AI 设备,想先从简单的精细调整开始学习。还有用户表示自己是个只有 22GB 内存的农民,不知道自己的设备是否能进行训练。有人指出内存无法用于训练,只有 VRAM 可以,甚至可以租用便宜的服务器进行训练。 讨论中也有一些有趣或引发思考的观点,比如有人因为说要使用其他模型而不是自己训练而被点了反对。 总之,这场关于 Llama 3.2 3B 无审查精细调整的讨论涵盖了丰富的经验分享、技术探讨和观点碰撞。

 ·  · 
模型与技术 训练与微调技术

我制作了一个可配置的反滑移采样器,可以在单词和短语级别下调概率。

讨论围绕一个可配置的反冗余采样器展开,探讨了其在单词和短语级别下调概率的应用、潜在改进和与其他技术的比较。

 ·  · 
模型与技术 训练与微调技术

波兰LLM 1.5B在单个GPU上持续预训练,这是一年工作的成果。

讨论围绕波兰语1.5B模型的持续预训练项目展开,涉及数据集、技术建议、赞赏和幽默等多个方面,总体氛围积极且技术性强。

 ·  ·