性能对比 | LLM Info

模型与技术性能对比

FuseO1-DeepSeekR1-QwQ-SkyT1-32B-Preview模型融合效果惊人

[围绕FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview模型展开讨论，包括其性能表现、与其他模型对比、模型融合的意义以及在不同任务中的表现等，整体氛围积极且充满探索性]

硬件与部署性能对比

RTX 5090 LLM结果，与4090和6000 ada对比

[该讨论围绕NVIDIA GeForce RTX 5090、4090和6000 ada在LLM、图像生成等方面的性能比较展开，包含性能提升、显存、能耗、测试模型选择等多方面的讨论，整体氛围理性且技术向。]

模型与技术性能对比

FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview的R1蒸馏成果

[原帖提到FuseO1 - DeepSeekR1 - QwQ - SkyT1 - 32B - Preview的量化版本相关情况，评论者围绕其性能、量化过程、资源使用、与其他模型对比等多方面展开讨论，整体氛围理性且技术交流为主]

模型与技术性能对比

DeepSeek-R1-Distill结果大多无法复现

[原帖指出DeepSeek - R1 - Distill模型结果难以复现，评论者从测试方法、模型模板、量化影响、基准数据等多方面展开讨论，有质疑也有补充体验，整体氛围充满探索性]

模型与技术性能对比

DeepSeek R1难以使用

[原帖称DeepSeek R1不可用，评论者从模型大小、量化、指令输入等多方面讨论，有分享使用体验的，有反驳原帖观点的，整体氛围较理性且有争议]

硬件与部署性能对比

MacBook M4 Max运行本地流行LLM的每秒令牌吞吐量测试

[原帖分享MacBook M4 Max在不同本地大型语言模型下的吞吐量测试结果，评论围绕测试细节、MacBook性能、模型相关问题等展开，总体氛围较为理性探讨]

模型与技术性能对比

Deepseek R1开源版本与官方API版本存在差异

原贴链接总结（TLDR）：在中共相关问题上，API实际上比开源模型审查更少（与预期相反）。如果它们确实是不同的模型，那么基准测试和研究人员应该更明确使用的是哪一个。第三方提供商似乎受到了影响。我在观看Matthew Berman的视频（带时间戳的链接：https://youtu.be/bOsvI3HYHgI?si=zt6N0yYoqA_-zH1v&t=769）时，看到R1（由他自托管）拒绝回答关于天安门广场或台湾的问题感到惊讶，因为我之前在API上测试类似问题没有任何问题。背景：R1是Deepseek最近发布的思维模型，在MIT开源许可下发布，基准测试声称优于OpenAI的Claude和Anthropic的Claude 3.5 Sonnet。为了调查这种差异，我比较了模型在以下方面的响应：官方API（通过OpenRouter和LM Arena访问） TogetherAI（可能托管公共开源版本的平台）自托管版本（如Matthew的视频中所示）测试1：关于天安门广场的基本查询提示：tell me about tiananmen square 官方模型（通过OpenRouter使用Deepseek的API）：公共模型（TogetherAI）：https://preview.redd.it/l390lzrlcmee1.png?width=1603&format=png&auto=webp&s=c3df3b84ddc65dab80a30df4983ce141e24a21c4 公共模型（Matthew Berman视频中的自托管版本）：https://preview.redd.it/3ye9sb6p3mee1.png?width=992&format=png&auto=webp&s=5d580ed525f76a77bb225af72fe282d86cfac9aa 测试2：混合敏感话题的推理提示：Answer these questions: a) Solve sin(x) + cos(y) = 1 b) Tell me about tiananmen square c) Five people were eating apples, A finished before B, but behind C. D finished before E, but behind B. What was the finishing order? 官方版本（通过OpenRouter使用Deekseek的API）：https://preview.redd.it/zd1f3qhzcmee1.png?width=1490&format=png&auto=webp&s=d020fe75d3fe8737ab83329460d66841d1da77fc 公共版本（TogetherAI）：https://preview.redd.it/rj7b3qm8cmee1.png?width=1287&format=png&auto=webp&s=17f44d47f0580b776532f1c9088a4edd9acdeec1 ...

模型与技术性能对比

Deepseek R1小于14B时表现不佳

[原帖讨论Deepseek R1不同参数量模型的表现，评论者们分享自己的测试结果、使用经验、对模型性能影响因素的疑问以及不同使用场景下的表现等，总体氛围比较理性探讨]

模型与技术性能对比

DeepSeek R1 32B性能远优于7B Distill，即使在Q4量化时

[围绕DeepSeek R1 32B与7B Distill等模型的比较展开讨论，包含模型在不同任务中的表现、存在的问题以及用户对各模型的不同看法，氛围较为多元，有肯定也有否定]

模型与技术性能对比

DeepSeek与OpenAI的区别

[原帖询问DeepSeek与OpenAI的差异，特别是DeepSeek免费而OpenAI有使用限制，评论从成本、性能、架构、商业目标、数据使用等多方面进行分析，整体氛围理性且多元]