这是我的个人体验。运行速度足够快的小型R1模型会生成过多输出。实际上,与像LLama3.2之类的模型相比,它们最终会变得非常慢。即使你能接受这个速度,R1也不能遵循简单的输出指令。关于思维链概念:我不相信它能带来显著的改进。反思只有在有外部反馈或参考时才有效,而不是像精神分裂症患者那样时不时地大喊“等等,不”来回顾自己的想法。R1给人的印象是一个不知道答案的学生,寄希望于在拖延老师的同时偶然碰到可接受的东西来蒙混过关。
讨论总结
原帖作者认为DeepSeek R1不可用,评论者从不同角度进行讨论。包括模型大小对性能的影响、不同量化设置下的表现、指令输入方式、与其他模型的比较等方面。既有支持原帖观点的,也有根据自己的使用经验反驳原帖观点的,整体讨论氛围比较理性且存在争议。
主要观点
- 👍 DeepSeek R1模型的有效性与模型大小有关,14B以下基本不可用
- 支持理由:如评论者提到14b@q8有过度思考和回答错误问题的情况,1.5B模型不可用且被过度炒作
- 反对声音:有评论者认为1.5B对于小模型而言很棒
- 🔥 不同大小的模型在不同量化设置下表现不同
- 正方观点:如32b@q4km、EXL2 4bpw和AWQ都通过测试,70b@q4km存在问题但AWQ版本正常
- 反方观点:无明显反方观点
- 💡 原帖作者可能是因为没有掌握正确的指令输入方式才得出R1不可用的结论
- 解释:有评论者称R1写代码能力不错,暗示原帖作者可能指令输入有误
- 💡 对于推理模型不必太在意输出格式
- 解释:如果Llama3.2能处理简单任务就无需使用R1,若需用R1,可将其输出导入另一模型重新格式化
- 💡 很多人对提示技巧掌握不足,难以得到好结果
- 解释:思考模型和聊天模型都是工具,使用者要掌握使用技巧才能得到好结果
金句与有趣评论
- “😂 14b@q8 gets ~60% it over thinks or does the answer wrong question thing (a fun new failure mode of reasoning models)”
- 亮点:形象地描述了14b@q8模型的问题
- “🤔 The R1 writes code very well. Try learning how to give instructions”
- 亮点:对原帖观点提出不同看法,认为可能是指令输入问题
- “👀 Mikolai007:The 1.5B is actually great for such a small model.”
- 亮点:在众多对小模型负面评价中提出正面看法
- “😂 PhD here. This is exactly how science is done. You go over your thoughts like dozens of times, exclaiming "wait no" 😂”
- 亮点:从科学研究角度反驳原帖对思维链概念的质疑
- “🤔 if you have a simple task that Llama3.2 can handle consistently, then you shouldn’t be using one of these anyways”
- 亮点:对不同模型的使用场景提出合理建议
情感分析
总体情感倾向比较复杂,既有对DeepSeek R1持否定态度的,也有肯定的。主要分歧点在于模型是否真的不可用以及不同版本、不同设置下的表现。可能的原因是大家的使用场景、测试方式以及对模型的期望不同。
趋势与预测
- 新兴话题:关于如何更好地使用DeepSeek R1的指令调整和提示输入技巧可能会引发后续讨论。
- 潜在影响:如果能确定一些有效的使用方法,可能会影响到相关用户对该模型的使用效率,也可能对模型开发者改进模型提供方向。
详细内容:
标题:关于 DeepSeek R1 模型的热门讨论
在 Reddit 上,一则题为“DeepSeek R1 is unusable [IMHO]”的帖子引发了广泛关注,获得了众多点赞和大量评论。该帖子主要表达了作者对 DeepSeek R1 模型的不满,认为其与类似 LLama3.2 的模型相比,速度较慢,且难以遵循简单的输出指令,对其思维链概念也表示怀疑。
讨论的焦点集中在对 DeepSeek R1 模型性能的不同看法上。有人指出,低于 14B 的版本效果不佳,14B 勉强能用,32B 和 70B 实际效果较好,670B 表现出色。例如,有人分享道:“32B@q4km, EXL2 4bpw 和 AWQ 都通过了我的测试,14b@q8 约 60%的情况会过度思考或答错问题。”还有人认为,在某些复杂编码任务中,R1 - 32B 能够完成工作,而对于其他人来说,可能效果不佳。
也有人提出,DeepSeek R1 模型的文档称将添加一个参数来设置模型思考的强度,这一点让人期待。但也有人质疑使用更多的标签是否有益,因为这与 DeepSeek 的推荐相悖。
同时,关于模型的适用性,有人认为它并非对所有人都无用,对于某些特定需求仍有价值。比如,有人表示:“1.5B 模型对于如此小的规模来说实际上很棒,而 70B 则表现非凡。”
然而,讨论中也存在一些争议和共识。争议在于不同用户对模型在不同任务中的表现评价不一,共识则是大家都认为需要不断探索和优化模型的使用方式和参数设置,以获得更好的效果。
总的来说,关于 DeepSeek R1 模型的讨论丰富多样,反映了用户在实际使用中的不同体验和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!