Qwen2.5 0.5B在谷歌Colab T4上全模型GRPO训练脚本,30分钟内GSM8K评估提升25%
[有人分享了在Google Colab T4上运行Qwen2.5 0.5B全模型GRPO训练的脚本及成果,评论者围绕模型训练成果、分数、内存优化、全模型微调与LoRA的区别等展开讨论]
[有人分享了在Google Colab T4上运行Qwen2.5 0.5B全模型GRPO训练的脚本及成果,评论者围绕模型训练成果、分数、内存优化、全模型微调与LoRA的区别等展开讨论]
[该讨论围绕能否将大型语言模型(LLM)微调用于逆向工程汇编代码展开,涉及LLM在代码注释、反编译等方面的能力、存在的问题以及相关训练、数据集制作等内容,整体氛围积极且充满技术探讨]
[帖子展示在特定硬件上训练1.49B llama的成果,评论有调侃幽默的,有对成果表示惊叹、赞赏或质疑的,也涉及模型性能、安全、能耗等方面的讨论,整体氛围活跃多样。]
[原帖介绍Kiln AI可在30分钟内训练推理模型,评论者围绕工具的功能、操作可行性、成本效益等提问,也有对特定行为表示有趣的观点,整体氛围积极探讨]
[关于Deepseek研究员称仅用2 - 3周训练R1和R1 - Zero的帖子,大家讨论了Deepseek相关模型的方方面面,包括训练时长的可信度、模型优势、模型改进、不同模型的比较等,还涉及到人工智能竞赛、知识构建等相关话题,氛围较为多元,既有期待支持也有怀疑。]
[关于将模型超拟合到小训练集可积极影响人类对模型输出的偏好这一观点,大家分享了经验、成果、疑惑和不同看法,总体氛围是积极探讨。]
[帖子分享多语言微调的R1 distills相关内容,评论围绕模型多语言功能、训练、评价、存在问题及开发利用等方面展开,整体氛围积极且充满探索性]
[讨论微调模型的框架工具,包括axolotl、Unsloth、Torchtune、MLX LM、Kiln、openpipe.ai等,涉及多GPU支持、特定系统下的工具、无代码工具等方面,整体氛围积极且信息丰富]
[原帖分享预训练162M小模型的经验及教程,评论者们多表达认可赞赏,有围绕教程展开的交流、预训练经历分享、技术相关探讨等,整体氛围积极]
[原帖介绍Phi - 4微调相关成果及Bug修复,评论者们围绕模型的性能、微调的相关技术、预训练兼容性等方面提问、发表看法、表示认可或好奇,整体氛围积极探索]