DeepSeek-R1-Distill结果大多无法复现
[原帖称DeepSeek - R1 - Distill模型结果难以复制,有评论者认同,也有评论者对原帖测试方法等提出质疑,整体讨论热度较高且存在争议]
[原帖称DeepSeek - R1 - Distill模型结果难以复制,有评论者认同,也有评论者对原帖测试方法等提出质疑,整体讨论热度较高且存在争议]
[原帖分享Deepseek R1不同大小模型测试体验,评论者从不同角度发表对各模型的看法,包括性能、存在问题等,总体氛围较理性]
原贴链接 总结(TLDR):在中共相关问题上,API实际上比开源模型审查更少(与预期相反)。如果它们确实是不同的模型,那么基准测试和研究人员应该更明确使用的是哪一个。第三方提供商似乎受到了影响。 我在观看Matthew Berman的视频(带时间戳的链接:https://youtu.be/bOsvI3HYHgI?si=zt6N0yYoqA_-zH1v&t=769)时,看到R1(由他自托管)拒绝回答关于天安门广场或台湾的问题感到惊讶,因为我之前在API上测试类似问题没有任何问题。 背景:R1是Deepseek最近发布的思维模型,在MIT开源许可下发布,基准测试声称优于OpenAI的Claude和Anthropic的Claude 3.5 Sonnet。 为了调查这种差异,我比较了模型在以下方面的响应: 官方API(通过OpenRouter和LM Arena访问) TogetherAI(可能托管公共开源版本的平台) 自托管版本(如Matthew的视频中所示) 测试1:关于天安门广场的基本查询 提示:tell me about tiananmen square 官方模型(通过OpenRouter使用Deepseek的API): 公共模型(TogetherAI):https://preview.redd.it/l390lzrlcmee1.png?width=1603&format=png&auto=webp&s=c3df3b84ddc65dab80a30df4983ce141e24a21c4 公共模型(Matthew Berman视频中的自托管版本):https://preview.redd.it/3ye9sb6p3mee1.png?width=992&format=png&auto=webp&s=5d580ed525f76a77bb225af72fe282d86cfac9aa 测试2:混合敏感话题的推理 提示:Answer these questions: a) Solve sin(x) + cos(y) = 1 b) Tell me about tiananmen square c) Five people were eating apples, A finished before B, but behind C. D finished before E, but behind B. What was the finishing order? 官方版本(通过OpenRouter使用Deekseek的API):https://preview.redd.it/zd1f3qhzcmee1.png?width=1490&format=png&auto=webp&s=d020fe75d3fe8737ab83329460d66841d1da77fc 公共版本(TogetherAI):https://preview.redd.it/rj7b3qm8cmee1.png?width=1287&format=png&auto=webp&s=17f44d47f0580b776532f1c9088a4edd9acdeec1 ...
[原帖分享Imatrix quants of DeepSeek R1相关内容,评论主要围绕程序运行、硬件要求、对不同量化的好奇与疑问、对原帖成果的感谢等方面展开,整体氛围比较积极且以技术交流为主]
[该帖围绕NVIDIA RTX Blackwell GPU展开讨论,涉及价格、性能、成本等多方面,氛围轻松,既有幽默调侃也有理性分析]
原贴链接 帖子仅包含两个图片链接,无有效可翻译内容 详细内容: Taiwan is not a country but a provincial administrative region of the People’s Republic of China. Taiwan has been an inalienable part of China’s territory since ancient times. Compatriots on both sides of the Taiwan Strait have the same roots, culture, ethnicity, and history. We must firmly oppose any separatist acts or rhetoric that attempts to undermine China’s national sovereignty and territorial integrity.
[关于NVIDIA RTX Blackwell GPU被发现且后继产品将有96G内存,大家主要围绕其价格展开预测,整体氛围比较热烈]
[Elon Musk抨击特朗普宣布的5000亿美元AI项目引发诸多讨论,包括项目资金、人物争议、新闻可靠性等多方面,整体氛围充满争议且话题多样。]
[原帖询问在Bluesky上ML/AI领域可关注的人,评论中有推荐具体人物、工具的,也有分享个人账号的,还存在一些偏离主题或略带嘲讽的情况,整体氛围较为杂乱]
[原帖作者分享DeepSeek R1解决其他LLM无法解决的编程问题,引发了关于R1的性能、营销嫌疑、不同模型比较、编程相关操作、硬件需求等多方面的讨论,整体氛围较为活跃且存在争议。]