模型与技术 训练与微调技术

随着我们从LLM训练后的RLHF(基于人类反馈的强化学习)转向LLM训练后的‘纯’强化学习方法,我们可能会看到与我们完全相反但仍然非常有效的‘推理’方式。只需阅读这里的Alphazero引述。

讨论围绕大型语言模型(LLM)在强化学习中的应用,探讨了AI推理的反直觉性、独立思考的必要性以及AI对棋类游戏和职业市场的影响。

 ·  · 
模型与技术 训练与微调技术

强化学习,它实际上是如何实现的?

讨论围绕强化学习(RL)的实现方法展开,涉及开源项目Optillm、Quiet-STaR方法、Docker支持、贡献者及资金支持等多个方面。

 ·  · 
模型与技术 训练与微调技术

解决Flux.schnell管道的缺陷,使其能够一步生成质量相近的图像。

讨论围绕优化Flux.schnell管道以实现一步生成高质量图像展开,涉及技术细节、计算预算、提示跟随等问题,情感倾向以探讨和赞赏为主。

 ·  · 
模型与技术 训练与微调技术

迷你全能:语言模型能够在流式传输中听、说并思考(微调自Qwen2-0.5B)

讨论围绕“Mini-Omni”模型的功能、定义和演示需求展开,涉及模型是否应被视为“Audio to Audio”或“Audio language model”,以及是否需要演示视频以增加关注度。

 ·  · 
模型与技术 训练与微调技术

AdEMAMix,AdamW优化器的一个简单修改,使LLM训练速度提高了95%(代码在第19页)

讨论围绕AdEMAMix优化器的性能、内存需求和代码实现展开,涉及时间-空间权衡、学术代码问题及与其他优化器的比较。

 ·  · 
模型与技术 训练与微调技术

除了llama之外,是否可以使用Reflection-tuning对其他模型进行微调?

讨论围绕Reflection-tuning技术在不同大小模型上的应用可能性展开,涉及模型效果、数据集特异性及技术细节,总体氛围好奇且期待。

 ·  · 
模型与技术 训练与微调技术

有多少人在进行微调?

讨论围绕模型微调的技术、挑战和成功案例展开,涉及多种工具和方法,强调数据集设计和适当指标的重要性,以及微调在特定领域应用中的潜力和局限。

 ·  · 
模型与技术 训练与微调技术

鼓手的Hubble 4B v1 - SLM的一小步,RP的一大步 - 对修剪后的Llama 3.1 4B 128K的微调

讨论围绕Drummer"s Hubble 4B v1模型的艺术表现、性能优化、硬件兼容性和微调需求展开,涉及太空探索的艺术表达和模型的技术细节。

 ·  · 
模型与技术 训练与微调技术

开源的语音转语音技术在哪里?

讨论围绕开源语音到语音转换技术展开,关注本地运行、情感表达、延迟优化和硬件性能,同时涉及多个相关项目和技术的链接。

 ·  · 
模型与技术 训练与微调技术

关于PEFT/LoRA调优变换器的“黑魔法”有哪些?

讨论围绕PEFT和LoRA的微调策略,涉及层选择、权重更新和替代算法,探索在有限参数预算下的最优方法。

 ·  ·