原贴链接

Hugging Face今日发布了SmolLM v2!它有3种规模——1.7B、360M和135M。1.7B是在11万亿个标记上训练的,360M是在4万亿个标记上训练的,135M是在2万亿个标记上训练的。1.7B的GGUF:[https://huggingface.co/unsloth/SmolLM2 - 1.7B - Instruct - GGUF](https://huggingface.co/unsloth/SmolLM2 - 1.7B - Instruct - GGUF)。另外,指令版本非常强大,虽然落后于Qwen,但在其他任务上表现更好。模型权重:[https://huggingface.co/collections/HuggingFaceTB/smollm2 - 6723884218bcda64b34d7db9](https://huggingface.co/collections/HuggingFaceTB/smollm2 - 6723884218bcda64b34d7db9)。还给出了不同规模模型的GGUF链接。

讨论总结

这是一个关于Hugging Face发布SmolLM v2的讨论。大家主要围绕模型本身展开讨论,包括它与其他模型(如Qwen2.5、gemma - 2 - 2b - it)的对比、不同版本模型的性能表现、在各种任务中的应用场景、模型的开源或开放权重情况、其训练时长以及一些使用体验等方面,整体氛围积极且具有探索性。

主要观点

  1. 👍 有了针对Qwen2.5模型的基准测试是新情况。
    • 支持理由:之前缺乏,此次对比是新进展。
    • 反对声音:无。
  2. 🔥 SmolLM模型运行速度快。
    • 正方观点:评论者亲测在CPU上运行速度快。
    • 反方观点:无。
  3. 💡 小模型可用于本地设备推理、函数调用和RAG。
    • 支持理由:可以应用在一些适合的场景中,不必构建到操作系统中。
    • 反对声音:无。
  4. 💡 SmolLM v2是完全开源并且分享了训练脚本和数据源。
    • 支持理由:有人分享了脚本和数据源等依据。
    • 反对声音:无。
  5. 💡 SmolLM2 - 1.7B无审查,但比gemma - 2 - 2b - it笨。
    • 支持理由:回复者给出了两者参数对比和使用体验。
    • 反对声音:无。

金句与有趣评论

  1. “😂 finally a benchmark against qwen2.5 models :)”
    • 亮点:反映出之前缺乏对Qwen2.5模型的基准测试,这个新情况被评论者关注。
  2. “🤔 They’re good! Run fast on CPU!”
    • 亮点:直观地给出SmolLM模型在CPU上运行的性能情况。
  3. “👀 Small models are like demented version of wikipedia, which are noticeably smaller.”
    • 亮点:用形象的比喻描述小模型的特点。
  4. “🤔 I think it’s open source fully - they even shared the training scripts and data sources”
    • 亮点:明确指出SmolLM v2开源且有证据支持。
  5. “😂 At least they’ll have time for a coffee break while it trains.”
    • 亮点:以幽默的方式调侃模型在RTX 3060上长时间的训练。

情感分析

总体情感倾向积极,大家对SmolLM v2的发布大多持正面态度,如对模型开源表示赞赏,对其性能和用途积极探讨。主要分歧点较少,可能的原因是大家更多在分享新的信息或者自己的使用体验。

趋势与预测

  • 新兴话题:模型在移动应用中的具体应用场景可能会引发后续讨论。
  • 潜在影响:对自然语言处理相关领域中小模型的应用和研究发展有一定的推动作用。

详细内容:

标题:Hugging Face 发布 SmolLM v2,引发 Reddit 热议

Hugging Face 今日发布了 SmolLM v2,引起了广大网友的关注。该帖获得了众多的点赞和评论,主要围绕着 SmolLM v2 的不同规模版本、性能表现以及实际应用展开了热烈讨论。

讨论焦点主要集中在以下几个方面:

  1. 有人认为 SmolLM v2 与 Qwen 2.5 模型的对比是一个亮点。
  2. 有人指出 SmolLM v2 在 CPU 上运行速度快。
  3. 对于不同规模版本的选择,有人提问哪个版本更值得推荐。
  4. 关于此类小型模型的用途,有人认为可用于本地设备推理、函数调用和 RAG 等,也有人分享了自己使用 SmolLM v1 360M 的经历。
  5. 大家还探讨了哪些移动应用可以利用这些模型。

在观点分析中,有用户分享道:“Local on device inference, for function calling & RAG mostly I believe. These approach the sort of size you could reasonably ship in an app, rather have to build into the OS.” 这清晰地阐述了小型模型在本地设备推理等方面的潜在用途。

对于小型模型与其他模型的比较,有人说:“SmolLM2-1.7B 开箱即用且未审查,但比 gemma-2-2b-it 笨,后者有 2.61B 参数,多 53%。”

同时,也有人关心模型的开源和权重问题,有人认为它是完全开源的,甚至分享了训练脚本和数据源。

关于训练时间,有人计算得出在 RTX 3060 上训练小型模型 135M 参数的版本需要约 10 年,而训练 1.7B 版本则需要约 120 年。

总之,Reddit 上关于 SmolLM v2 的讨论展现了大家对其性能、应用和训练等方面的关注和思考,为相关领域的研究和应用提供了有价值的参考。