原贴链接

无有效内容可翻译,仅为一个链接:https://huggingface.co/blog/Pclanglais/common-models

讨论总结

该讨论围绕Pleias发布的模型展开。话题涵盖模型评估是否存在问题、数据版权相关的疑问、小模型的实际用途、新分词器使用的动机、模型训练的方法及其成本、与其他模型的比较等多方面内容。既有对模型优势的认可,也有对一些未明确情况的质疑,整体讨论氛围较为积极热烈。

主要观点

  1. 👍 小型模型评估存在问题,但0.5B模型可被基准测试,质疑不公布分数的动机。
    • 支持理由:流行的通用基准不适用于评估小型模型,但0.5B模型能被很好地基准测试,不公布分数令人怀疑。
    • 反对声音:无
  2. 🔥 公共语料库中的数据来源存在版权和软件许可方面的疑问。
    • 正方观点:公共语料库中如Github、Youtube转录内容存在版权相关问题。
    • 反方观点:无
  3. 💡 模型的最大贡献在于训练方法。
    • 解释:1B模型的训练耗时对中小企业来说成本可接受,很多企业可利用该训练方法用内部文件复制模型。
  4. 💡 小模型的实际用途值得探讨。
    • 解释:不同小模型在不同任务中有不同表现,如1.5 - 模型在特定任务复制上效率不错,3B模型适合手机实时运行。
  5. 💡 对使用新分词器的动机表示好奇。
    • 解释:看到完全基于许可数据的模型很酷,但使用新分词器让人疑惑。

金句与有趣评论

  1. “😂 Different_Fix_2217: "Evaluation of small models is fraught with problems. The most popular generalist benchmarks are not suitable for evaluating small models."”
    • 亮点:指出小型模型评估存在问题,为后续关于模型评估的讨论提供基础。
  2. “🤔 Oddest part is using a new tokenizer for this, wonder what the motivation was 🤔”
    • 亮点:提出对新分词器使用动机的疑惑,引发相关讨论。
  3. “👀 AdventurousSwim1312:Actually I made tests on specific but non trivial tasks (ie: based on an incorrect QCM answer, to identify what false reasoning led to the answer) to finetune a Qwen2.5 - Math - 1.5B with Cot generated by QwQ and then output the answer, and the final result was on par with what I could obtain from a 14B model leveraging heavy prompting techniques, so 1.5 - models might not be very useful for general use case, but in term of replicating a single task that can be handled by a larger model through prompting, it enable outstanding efficiency.”
    • 亮点:通过实际测试结果说明1.5 - 模型在不同用途上的表现,为小模型用途的讨论提供具体案例。

情感分析

总体情感倾向积极。主要分歧点在于数据版权方面,如对公共语料库数据来源版权的质疑与对模型训练数据合规性的不同看法。可能的原因是数据在模型训练中的重要性以及版权相关法律的复杂性。

趋势与预测

  • 新兴话题:关于数据开源的不同层次以及在不同地区的适用性可能会引发后续讨论。
  • 潜在影响:对模型开发中数据使用的合规性会更加重视,可能影响相关企业在数据获取和模型训练方面的策略。

详细内容:

标题:关于 Pleias 全开放数据训练模型的热门讨论

近日,Reddit 上一则关于 Pleias 发布完全基于开放数据训练的模型,并与 Llama 3B 和 Qwen 3B 相竞争的帖子引发了热烈讨论。该帖子https://huggingface.co/blog/Pclanglais/common-models获得了众多关注,评论区中大家的观点交锋激烈。

讨论焦点主要集中在以下几个方面:

首先是关于模型评估和标准化基准的问题。有人认为小型模型的评估存在诸多问题,流行的通用基准并不适合评估小型模型。但也有人指出,标准化基准虽有问题,但仍是必须的,否则无法进行模型比较。

其次,在数据版权和许可方面存在争议。有人指出,不能确定所谓的开放数据在版权和软件许可方面是否真的合规,比如“Common Corpus”中包含的“Github 开源”和“Wikipedia”等内容。有人质疑,如果模型生成了受版权保护的内容,或者代码库中出现了非许可代码,可能会引发法律纠纷。

再者,对于模型训练中使用新的分词器,大家也各抒己见。有人好奇其动机,有人认为这是一种常见的“非我发明综合征”,也有人指出对于非常见语言,新的分词器很有用。

此外,关于模型的实际应用和性能,有人认为这类模型的最大贡献在于训练配方,适合中小企业在自己的内部文档上训练模型。也有人探讨了不同规模模型的适用场景和发展趋势,认为 3B 模型在手机实时运行方面有巨大优势。

在讨论中,有人分享自己使用太阳能为电脑供电来测试模型的经历。

总之,这次关于 Pleias 模型的讨论涉及多个重要且复杂的问题,引发了大家的深入思考和热烈交流。