DeepSeek-R1-Distill结果大多无法复现
[原帖称DeepSeek - R1 - Distill模型结果难以复制,有评论者认同,也有评论者对原帖测试方法等提出质疑,整体讨论热度较高且存在争议]
[原帖称DeepSeek - R1 - Distill模型结果难以复制,有评论者认同,也有评论者对原帖测试方法等提出质疑,整体讨论热度较高且存在争议]
[这是一个关于从R1提取推理并传递给任何模型的Reddit讨论,涉及技术操作、优势、性能影响等方面,存在不同观点,有疑惑、反对的声音,也有对应用场景等的思考。]
[关于R1 - Zero模型跳过监督微调通过强化学习训练引发多方面讨论,包括模型输出、训练方式、性能表现、推理逻辑等,有质疑也有解释,情感态度多样]
[围绕新Qwen可能是MoE展开讨论,涉及模型规模、性能、本地操作、许可等多方面,有希望也有质疑,整体氛围理性且技术向]
[原帖认为DeepSeek R1不可用,评论者们从不同角度如模型大小、量化等级、指令调整等方面讨论了R1的可用性,有赞同有反驳,整体讨论较理性]
[围绕DeepSeek R1 32B与7B Distill等模型的比较展开讨论,包含模型在不同任务中的表现、存在的问题以及用户对各模型的不同看法,氛围较为多元,有肯定也有否定]
[原帖分享Imatrix quants of DeepSeek R1相关内容,评论主要围绕程序运行、硬件要求、对不同量化的好奇与疑问、对原帖成果的感谢等方面展开,整体氛围比较积极且以技术交流为主]
[原帖倡导利用工作流更好地使用R1等推理模型,评论者们围绕此展开讨论,有赞同、好奇、寻求帮助等多种回应,整体氛围积极且充满探索性]
原贴链接 总结(TLDR):在中共相关问题上,API实际上比开源模型审查更少(与预期相反)。如果它们确实是不同的模型,那么基准测试和研究人员应该更明确使用的是哪一个。第三方提供商似乎受到了影响。 我在观看Matthew Berman的视频(带时间戳的链接:https://youtu.be/bOsvI3HYHgI?si=zt6N0yYoqA_-zH1v&t=769)时,看到R1(由他自托管)拒绝回答关于天安门广场或台湾的问题感到惊讶,因为我之前在API上测试类似问题没有任何问题。 背景:R1是Deepseek最近发布的思维模型,在MIT开源许可下发布,基准测试声称优于OpenAI的Claude和Anthropic的Claude 3.5 Sonnet。 为了调查这种差异,我比较了模型在以下方面的响应: 官方API(通过OpenRouter和LM Arena访问) TogetherAI(可能托管公共开源版本的平台) 自托管版本(如Matthew的视频中所示) 测试1:关于天安门广场的基本查询 提示:tell me about tiananmen square 官方模型(通过OpenRouter使用Deepseek的API): 公共模型(TogetherAI):https://preview.redd.it/l390lzrlcmee1.png?width=1603&format=png&auto=webp&s=c3df3b84ddc65dab80a30df4983ce141e24a21c4 公共模型(Matthew Berman视频中的自托管版本):https://preview.redd.it/3ye9sb6p3mee1.png?width=992&format=png&auto=webp&s=5d580ed525f76a77bb225af72fe282d86cfac9aa 测试2:混合敏感话题的推理 提示:Answer these questions: a) Solve sin(x) + cos(y) = 1 b) Tell me about tiananmen square c) Five people were eating apples, A finished before B, but behind C. D finished before E, but behind B. What was the finishing order? 官方版本(通过OpenRouter使用Deekseek的API):https://preview.redd.it/zd1f3qhzcmee1.png?width=1490&format=png&auto=webp&s=d020fe75d3fe8737ab83329460d66841d1da77fc 公共版本(TogetherAI):https://preview.redd.it/rj7b3qm8cmee1.png?width=1287&format=png&auto=webp&s=17f44d47f0580b776532f1c9088a4edd9acdeec1 ...
[原帖分享Deepseek R1不同大小模型测试体验,评论者从不同角度发表对各模型的看法,包括性能、存在问题等,总体氛围较理性]