原贴链接

我对FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview进行了exl2 4.25 BPW量化,它的功能达到了我对DeepSeek - R1 - Distill - Qwen - 32B的预期。它在多轮性能上没有下降,指令遵循能力更强,写作结果更符合R1。(HF链接:https://huggingface.co/FuseAI/FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview)我知道人们在周一晚些时候已经提到过这个,但我直到现在才得到它并进行测试,所以我想其他人可能仍然在DeepSeek - R1 - Distill - Qwen - 32B上存在问题。我个人认为这可能是你所期待的新的最先进水平(SOTA)。

讨论总结

原帖作者分享了FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview的exl2 4.25 BPW量化版本的成果,认为该版本功能表现不错,可能是新的SOTA。评论者们从不同角度进行了讨论,包括打算尝试在特定显卡上运行此版本、询问量化相关的校准数据集、对量化版本的性能测试方式及结果、与其他模型对比情况、是否存在审查等内容,还有关于运行时的技术问题如显存要求、模型运行速度、消耗功率等,以及数据流向中国的担忧等话题。

主要观点

  1. 👍 原帖作者对FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview量化版本的认可,认为功能表现佳,可能是新的SOTA
    • 支持理由:该版本多轮性能不下降、指令遵循更优、写作结果更符合R1。
    • 反对声音:有评论者不相信该版本比QwQ更好,通过本地运行对比测试,在某些数学和动物数量问题上,QwQ 32B表现更优。
  2. 🔥 对模型量化版本性能的关注
    • 正方观点:认为量化结果表现不错,如正确判定无不含“e”的奇数。
    • 反方观点:有评论者指出其运行速度远低于基础R1 32b模型,且没有思维链、忽略更多提示。
  3. 💡 对FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview量化版本与其他模型对比的疑问
    • 评论者询问该量化版本相较于QwQ或者Deepseek r1 32B Qwen好在哪里,还询问与Ollama上的Distill - 32b - Qwen在基准测试方面相比情况如何。

金句与有趣评论

  1. “😂 Dundell: I am looking for something to help with coding locally. You’re saying 4.25bpw is fine? I’ll give it a go and see how well it works on 2 RTX 3060 12GB’s”
    • 亮点:表达了寻找本地编码辅助工具的想法以及打算尝试特定版本在特定显卡上的运行效果,体现了很多用户探索新技术在自身设备上应用的心态。
  2. “🤔 我为FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview做了一个exl2 4.25 BPW量化,它的功能符合我对DeepSeek - R1 - Distill - Qwen - 32B的预期。”
    • 亮点:原帖作者表明量化成果符合预期,是整个讨论的核心内容之一。
  3. “👀 Gosh… if thinking like that would happen consciously on your brain, you’d go mental…”
    • 亮点:以一种诙谐的方式表达对模型思考量的看法,如果人类大脑像模型这样思考会发疯,很有趣地对比了人和模型的思考方式。

情感分析

总体情感倾向为中性偏理性。主要分歧点在于对FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview量化版本的性能评价,部分人认可原帖作者认为其可能是新的SOTA的观点,部分人则通过测试对比表示不认可。可能的原因是不同人使用的测试方式、测试场景以及对模型性能评判的标准不同。

趋势与预测

  • 新兴话题:模型在不同领域如数学、编码、科学领域的推理能力提升相关话题可能会引发后续讨论,例如模型融合技术如何更好地整合不同模型的优势。
  • 潜在影响:如果该量化版本确实在性能上有优势,可能会影响相关领域人员对模型的选择,并且对类似模型量化技术的发展提供参考,促进相关技术在本地编码、模型推理等方面的应用。

详细内容:

标题:关于 FuseO1-DeepSeekR1-QwQ-SkyT1-32B-Preview 的热门讨论

在 Reddit 上,有一个关于“FuseO1-DeepSeekR1-QwQ-SkyT1-32B-Preview”的热门帖子引起了广泛关注。该帖子介绍了对这个模型的 exl2 4.25 BPW 量化,并声称其在多轮性能、指令遵循和写作结果方面表现出色,还提供了相关的HF 链接。此帖获得了众多的评论和讨论。

讨论的焦点主要集中在以下几个方面: 有人正在寻找有助于本地编码的东西,想知道 4.25bpw 是否可行,并准备在 2 个 RTX 3060 12GB 上测试其运行效果。有人好奇较低的 30 系列显卡的推理速度如何,还有人分享了在特定显卡上的速度测试结果。有人建议尝试 FuseO1 的 Qwen 2.5 Instruct 变体,认为其在编码方面更有效。也有人提出如何让不同型号的显卡一起工作。 有人在使用 ollama 运行该模型时遇到了问题,如 think 标签不正常工作。有人质疑模型的性能,认为其表现远不如基础的 R1 32b 模型,生成令牌的速度慢,且似乎没有思维链,还会忽略很多提示。有人询问 VRAM 的使用量。有人对模型的链接准确性表示怀疑。 有人询问转换为 exl2 时使用的校准数据集。有人希望分享 EXL2 量化的内容。有人想了解测试方法是否涉及编码。有人询问是否有提供商提供推理服务。

有人认为该模型不像原始的 qwen 那样受到审查。有人表示 4 次射击用于 FuseO1,5 次射击用于 QwQ,难以明确哪个表现更好。有人认为大多数人对“基准”存在误解,它可能不是编码基准,而是“空间认知”基准。

有人通过数学问题测试了不同模型的表现,结果显示 QwQ 32B 在某些问题上的回答更准确。

有人介绍了[FuseO1-Preview](https://huggingface.co/collections/FuseAI/fuseo1 - preview - 678eb56093649b2688bc9977)旨在通过创新的模型融合技术增强大型语言模型的系统-II 推理能力。

有人质疑使用该模型数据是否会流向中国,有人表示可以在本地运行以避免数据共享问题。

关于这个模型与其他模型在基准测试中的比较以及 VRAM 需求等问题,也引发了大家的思考和讨论。

在这场热烈的讨论中,大家各抒己见,分享自己的经验和观点,为深入了解这个模型提供了丰富的视角。但关于模型的性能、应用场景以及数据安全等问题,仍有待进一步的探讨和研究。