原贴链接

最近我在家感到无聊,决定把我搭建的4路3090服务器好好利用起来。过去一个月里,我基于llama2从头开始预训练了一批大型语言模型,它们在fineweb数据集上训练了320亿个token。这些模型的规模从“相当”大(约5亿参数)到接近无用(1000万参数)不等。无论如何,我在做这些实验时感到很有趣,并且已经发布了这些模型、它们的权重以及这些权重的GGUF格式文件在huggingface上,请告诉我你的想法。如果有人感兴趣,我会发布训练数据和其他预训练步骤的内容。

PS,我并不经常发布东西,所以如果有错误请告诉我,我可能会修正它们。

:3

仓库链接:https://huggingface.co/UUFO-Aigis

讨论总结

本次讨论主要围绕作者自定义语言模型预训练项目展开,涉及模型大小、训练时间、电力消耗、源代码分享等多个技术细节。讨论中,用户对项目的实验性和创新性表示赞赏,同时也提出了关于模型性能、训练效率和未来发展方向的建议。整体氛围积极,充满实验精神,用户对技术细节表现出浓厚兴趣。

主要观点

  1. 👍 自定义语言模型预训练项目
    • 支持理由:项目具有实验性和创新性,能够激发技术爱好者的兴趣。
    • 反对声音:暂无。
  2. 🔥 在小型模型上尝试1.5bit训练
    • 正方观点:Raywuo建议在小模型上尝试1.5bit训练,认为这可能会引起关注。
    • 反方观点:OfficialHashPanda质疑在小模型上进行bitnet训练的意义,建议在更大模型上尝试。
  3. 💡 模型性能与电力消耗
    • 讨论了模型大小与电力消耗的关系,以及通过超频提高训练效率的方法。

金句与有趣评论

  1. “😂 OfficialHashPanda:cute
    • 亮点:用“cute”一词表达了对该项目的有趣和可爱的看法。
  2. “🤔 Raywuo:You could try training a 1.5bit on a tiny models like this. I bet it will bring attention.
    • 亮点:提出了在小模型上尝试1.5bit训练的建议,认为这可能会引起关注。
  3. “👀 NotAigis:For sure, This is all about experimentation, I have a lot of plans in the pipeline and I’ll probably make a second post about OpenLAiNN-2 or something when I have enough interesting findings to show.
    • 亮点:强调了实验的重要性,并计划在未来发布更多有趣的发现。

情感分析

讨论的总体情感倾向积极,用户对自定义语言模型预训练项目表现出浓厚兴趣。主要分歧点在于模型大小和训练效率的讨论,但整体氛围友好,用户之间互相提供建议和支持。

趋势与预测

  • 新兴话题:未来可能会围绕更大规模模型的训练和优化展开更多讨论。
  • 潜在影响:自定义语言模型预训练项目可能会激发更多技术爱好者进行类似实验,推动语言模型技术的发展。

详细内容:

标题:DIY 预训练自己的语言模型引发的热烈讨论

最近,Reddit 上有个帖子火了!一位用户在家无聊,决定让自己搭建的 4 路 3090 服务器发挥作用,花了上个月的时间从零开始基于 llama2 预训练了一批语言模型(LLMs),并使用了fineweb数据集的 32B 个标记。这些模型参数从“还算大”的约 5 亿到几乎没用的 1000 万不等。此帖获得了众多关注,引发了热烈讨论。

讨论焦点与观点分析: 有人觉得训练一个 1.5 位的小型模型或许能吸引注意。也有人认为,仅在 fineweb 上训练 1.5B 并不突出,除非添加一些特殊的元素。还有人表示,虽然这种尝试在参数高于 10 亿的模型上可能有用,但在 5000 万参数的模型上尝试意义不大。

有人提到,这种实验主要是为了概念验证,因为方法论与传统的转换器非常不同,参数可能不会同等地缩放,如果像 gpt2 那样有效,可能会像其他更大的模型一样缩放。

有人询问是否公布源代码和所采取的步骤,作者表示由于是实验,代码比较乱,计划之后更新并完善,如果顺利会发布带有源代码和分步说明的 git 仓库,还会发布训练数据和日志。

关于训练不同模型大小所花费的时间,作者称小型模型约一天左右,像 5000 万和 2500 万参数的模型则需要 1 - 3 周。

对于电力消耗,作者表示 3090 平均功耗约 315 瓦,整个服务器总功耗约 1500 瓦,训练 1000 万参数的模型总耗电约 56 千瓦时,成本约 5.6 美元。如果按比例计算,70 亿参数的模型会贵很多。

总的来说,这次关于 DIY 预训练语言模型的讨论充满了各种观点和思考,有人关注技术创新,有人关心成本和效率。大家都在积极探讨如何让这样的实验更加有意义和有价值。