原贴链接

我正在寻找与原始Mixtral 8x7B大小相似的MoE模型。目前有具有竞争力的模型吗?背景:我有一台配备12GB显存和64GB内存的电脑,像Llama 3.3这样的大模型理论上能装进我的内存,但速度当然很慢(略高于1t/s)。然而,像Mixtral 8x7这样大小相近的MoE模型要快得多,比如4 - 5t/s,这至少在某些方面是可用的。当然,能装进显存是最快的,但我喜欢用更大的模型做实验,还不想购买新的GPU。

讨论总结

原帖寻求类似Mixtral 8x7B大小的MoE模型,评论者们从不同角度进行了回应。有人推荐了各种模型如Jamba 1.5 mini llama.cpp分支、Yuan2 M32等,也有人指出目前不存在类似规模的MoE模型并且人们不再关注小型MoE模型,还有人分享了自己尝试某些MoE模型的体验。整体讨论氛围较为理性和平和,主要围绕模型推荐和小型MoE模型的现状展开。

主要观点

  1. 👍 希望Mistral能推出从R1蒸馏出的8x7b模型,认为这样的模型会很强大
    • 支持理由:无(未阐述)
    • 反对声音:无
  2. 🔥 目前没有与Mixtral 8x7B规模相似的MoE模型,人们不再关注小型MoE模型且Mistral很久之前承诺更新Mixtral但未做到
    • 正方观点:从当前市场情况和Mistral的表现得出结论
    • 反方观点:无
  3. 💡 推荐Jamba 1.5 mini llama.cpp分支模型、Yuan2 M32模型、phi MoE模型等
    • 支持理由:未详细阐述,直接推荐可能是基于个人经验或了解
    • 反对声音:无

金句与有趣评论

  1. “😂 Wish Mistral can deliver a 8x7b distilled from R1. This would be THE absolute beast.”
    • 亮点:简洁地表达出对特定模型的强烈期待。
  2. “🤔 (in benchmarks) here are unexplored models, Jamba 1.5 mini llama.cpp branch, you can use one - shot prompts.”
    • 亮点:提供了未被探索的模型信息。
  3. “👀 Doesn’t exist unfortunately. Nobody seems interested in smaller MoEs anymore, which is a damn shame.”
    • 亮点:指出小型MoE模型的现状并表达遗憾。

情感分析

总体情感倾向较为中性,主要分歧点在于是否存在满足原帖需求的模型,部分人认为有推荐的模型,部分人认为不存在类似规模的MoE模型。可能的原因是大家对模型的了解程度和使用经验不同。

趋势与预测

  • 新兴话题:将其他模型的量化应用于推荐的MoE模型。
  • 潜在影响:对模型使用者在选择适合自己设备资源的模型上有一定的指导意义。

详细内容:

标题:寻找比 R1 更小的优质 MoE 模型引发热议

在 Reddit 上,一则关于寻找类似原始 Mixtral 8x7B 大小的 MoE 模型的帖子引发了众多关注。该帖子获得了一定的点赞数和众多评论。

原帖作者表示,自己拥有一台 12GB VRAM 和 64GB RAM 的电脑,像 Llama 3.3 这样的大型模型理论上能在 RAM 中运行,但速度较慢,而类似大小的 Mixtral 8x7 这类 MoE 模型则快很多,作者喜欢尝试更大的模型但暂不想购买新的 GPU。

帖子引发的讨论主要集中在推荐各类可能符合需求的模型。有人希望 Mistral 能推出从 R1 提炼的 8x7b 模型,认为这将是“绝对的猛兽”。有人提到在基准测试中,存在未被充分探索的模型,如 Jamba 1.5 mini llama.cpp 分支、Yuan2 M32 等,并指出 Phi MoE 模型。有人分享称自己有与原帖作者类似的配置,微调的 Mistral 7b 是自己常用的选择,同时认为 IQ4_XS 被低估,如果只能运行更高的模型,它很不错。有人表示取决于需求,像 ds2-coder-lite 这样的较老的 deepseek 模型或许可行。还有人推荐 allenai/OLMoE-1B-7B-0924-Instruct 模型。有人提到如果知道如何操作 ExLlama,有 exl2 变体可能符合 RAM 要求。也有人表示更高的量化可能带来惊喜,因为是 MoE 模型,即使在 RAM 上运行也能相当快。

讨论中的共识在于大家都在积极分享自己所了解的相关模型信息,试图帮助原帖作者找到合适的选择。特别有见地的观点是对于不同模型特点和适用场景的详细分析,丰富了讨论内容。然而,也有人表示尝试了一些模型但效果不佳。

总之,关于寻找小尺寸优质 MoE 模型的讨论仍在继续,大家都在期待能有更理想的解决方案出现。