在localllama这里,我们喜欢在本地运行东西!我特别对你们的70b和小型模型垂涎三尺。:D
讨论总结
本次讨论围绕Mistral团队是否应该开源其过时的模型,特别是70b和更小的模型。评论者们讨论了这些模型的性能、可用性以及它们在当前市场上的地位。许多评论者表达了对更新的Mixtral模型的兴趣,同时也提到了其他新模型的出现,如Llama 3.1和Mistral Large 2。此外,评论中还涉及了模型的配置文件问题、VRAM使用情况以及MoE(Mixture of Experts)模型的优缺点。总体上,讨论呈现出对新技术的高度期待和对旧模型利用的探讨。
主要观点
- 👍 较小的模型已经基本全部开源
- 支持理由:开源模型有助于社区的发展和创新。
- 反对声音:未提及。
- 🔥 Mistral团队可以考虑发布之前泄露的 “Miqu” 70b 模型
- 正方观点:尽管现在可能意义不大,但仍有一定的研究价值。
- 反方观点:现在有更好的模型可用,如Llama 3.1和Mistral Large 2。
- 💡 希望Mistral团队更新Mixtral-8x7B模型或基于Nemo开发新的Mixtral模型
- 解释:以便能够在单个GPU上运行,满足本地运行的需求。
金句与有趣评论
- “😂 I mean they still could release the leaked "Miqu" 70b model from months ago, although I don’t think it makes much of a difference now.”
- 亮点:尽管现在意义不大,但仍有一定的研究价值。
- “🤔 Just give us a refresh of Mixtral-8x7B or a new Mixtral based on Nemo that we can run on a single GPU!”
- 亮点:强调模型能够在单个GPU上运行的重要性。
- “👀 The problem of those models imo is the training / fine tuning complexity added by the router.”
- 亮点:指出MoE模型在训练和微调上的复杂性。
情感分析
讨论的总体情感倾向是期待和好奇,主要分歧点在于是否应该开源过时的模型。支持者认为开源有助于社区发展,而反对者则认为旧模型性能不如新模型,实际使用需求不大。可能的原因包括技术更新换代快,以及商业激励和市场吸引力的问题。
趋势与预测
- 新兴话题:对Mixtral模型的更新和基于Nemo的新模型的期待。
- 潜在影响:开源过时模型可能对研究领域有积极影响,但对商业市场的影响有限。
感谢您的耐心阅读!来选个表情,或者留个评论吧!