模型与技术 训练与微调技术

预训练小模型:162M模型预训练的一些经验总结

[原帖分享预训练162M小模型的经验及教程,评论者们多表达认可赞赏,有围绕教程展开的交流、预训练经历分享、技术相关探讨等,整体氛围积极]

 ·  · 
模型与技术 训练与微调技术

Phi-4微调:现支持超128K上下文长度及漏洞修复详情

[原帖介绍Phi - 4微调相关成果及Bug修复,评论者们围绕模型的性能、微调的相关技术、预训练兼容性等方面提问、发表看法、表示认可或好奇,整体氛围积极探索]

 ·  · 
模型与技术 训练与微调技术

微调最爱模型之选

[大家针对微调最喜欢的模型展开讨论,分享了各自喜欢的模型及原因,包括模型在不同任务中的表现、资源占用、对数据集的适应性等,整体氛围较为积极的技术交流]

 ·  · 
模型与技术 训练与微调技术

创建包含自有数据的模型有多难

[围绕创建包含自己数据的模型展开讨论,分享了如RAG脚本、与SQL查询结合等多种方法,推荐了Kiln平台等,有技术分享也有提供帮助,整体氛围积极建设性]

 ·  · 
模型与技术 训练与微调技术

Llama 3.3 (70B)微调 - 现支持90K上下文长度且适配<41GB显存

[原帖介绍Llama 3.3 (70B)的微调成果,评论者大多表达认可与惊叹,同时围绕Unsloth技术、硬件需求、模型训练等多方面提出疑问并展开技术探讨]

 ·  · 
模型与技术 训练与微调技术

18分钟内从零创建9个微调模型的工具演示[Kiln AI]

[围绕Kiln工具展开讨论,包括工具试用、数据微调遇到的技术疑问,还有对工具的认可与建设性意见,整体氛围积极正面但讨论热度较低。]

 ·  · 
模型与技术 训练与微调技术

混元视频:大型视频生成模型训练的系统框架

[围绕HunyuanVideo这个大型视频生成模型训练框架展开讨论,涉及从资源分享到技术要求等多方面内容,氛围较积极且充满好奇]

 ·  · 
模型与技术 训练与微调技术

Qwen 2.5 14B:为角色扮演进行无审查微调

[原帖介绍了基于Qwen 2.5 14B微调的模型及其相关服务,寻求反馈,评论者围绕模型特性、训练、审查、使用、性能等多方面展开讨论,整体氛围较为积极多元。]

 ·  · 
模型与技术 训练与微调技术

本地微调大型语言模型的最佳方案及16GB可训练内容

[围绕本地微调大型语言模型(LLM)的最佳程序或项目以及16GB显存下的训练展开讨论,分享了多个项目和方法,整体氛围比较理性和专注于技术交流]

 ·  · 
模型与技术 训练与微调技术

预训练大语言模型微调需多久

[围绕微调预训练的大型语言模型所需时间展开讨论,涉及不同模型、硬件设置、数据量等因素,有估算方法、质疑声音和其他相关观点]

 ·  ·