预训练小模型:162M模型预训练的一些经验总结
[原帖分享预训练162M小模型的经验及教程,评论者们多表达认可赞赏,有围绕教程展开的交流、预训练经历分享、技术相关探讨等,整体氛围积极]
[原帖分享预训练162M小模型的经验及教程,评论者们多表达认可赞赏,有围绕教程展开的交流、预训练经历分享、技术相关探讨等,整体氛围积极]
[原帖介绍Phi - 4微调相关成果及Bug修复,评论者们围绕模型的性能、微调的相关技术、预训练兼容性等方面提问、发表看法、表示认可或好奇,整体氛围积极探索]
[大家针对微调最喜欢的模型展开讨论,分享了各自喜欢的模型及原因,包括模型在不同任务中的表现、资源占用、对数据集的适应性等,整体氛围较为积极的技术交流]
[围绕创建包含自己数据的模型展开讨论,分享了如RAG脚本、与SQL查询结合等多种方法,推荐了Kiln平台等,有技术分享也有提供帮助,整体氛围积极建设性]
[原帖介绍Llama 3.3 (70B)的微调成果,评论者大多表达认可与惊叹,同时围绕Unsloth技术、硬件需求、模型训练等多方面提出疑问并展开技术探讨]
[围绕Kiln工具展开讨论,包括工具试用、数据微调遇到的技术疑问,还有对工具的认可与建设性意见,整体氛围积极正面但讨论热度较低。]
[围绕HunyuanVideo这个大型视频生成模型训练框架展开讨论,涉及从资源分享到技术要求等多方面内容,氛围较积极且充满好奇]
[原帖介绍了基于Qwen 2.5 14B微调的模型及其相关服务,寻求反馈,评论者围绕模型特性、训练、审查、使用、性能等多方面展开讨论,整体氛围较为积极多元。]
[围绕本地微调大型语言模型(LLM)的最佳程序或项目以及16GB显存下的训练展开讨论,分享了多个项目和方法,整体氛围比较理性和专注于技术交流]
[围绕微调预训练的大型语言模型所需时间展开讨论,涉及不同模型、硬件设置、数据量等因素,有估算方法、质疑声音和其他相关观点]