模型与技术

DeepSeek -R1 -Lite -Preview在多项基准测试中似乎胜过DeepSeek V3，为何V3更受追捧？

[围绕DeepSeek - R1 - Lite - Preview和DeepSeek V3在多个基准测试中的表现展开讨论，涉及两者的性能、特点、热度差异等，大家各抒己见，整体氛围较为理性]

[帖子介绍了noise_step相关内容，评论者们多对其表示质疑，包括存储容量、性能损失、实验依据等方面，整体氛围充满怀疑。]

[关于Deepseek的讨论涉及多个方面，包括性能、成本、试用体验、与其他模型的比较等，大家观点不一，有正面评价也有质疑，整体氛围比较多元。]

[围绕DeepSeek生成价值1美元代币的时长展开讨论，涉及与Sonnet的比较、DeepSeek的性能、质量、审查、硬件运行成本等多方面，既有正面评价也有质疑，整体氛围热烈且多元]

[原帖对DeepSeek 600b模型在网站运行快且API便宜感到疑惑，评论从MoE模型特性、硬件要求、数据隐私等多方面展开讨论，整体氛围积极且充满技术探讨氛围。]

[围绕DeepSeek - v3是最佳开源模型展开讨论，涉及基准测试、评判模型合理性、与其他模型比较、对模型的期待与质疑等多方面内容，氛围有争议且多元]

[围绕Experimental Command - R模型展开讨论，涉及训练成本、运行条件、资源链接等话题，整体氛围较为轻松]

[原帖询问是否有比Mistral Small 22B更好的创意写作模型，评论者们分享了各自使用不同模型的体验、推荐其他模型并对原帖提到的模型进行评价，整体氛围积极交流且各抒己见]

[围绕llama - 3 - 8b - instruct相关内容展开讨论，涉及图片连接错误、对其是否浪费资源的质疑、大型语言模型相关知识的交流、工具推荐等，讨论热度较低且比较分散。]

[围绕DeepSeek V3的MOE修剪展开讨论，涉及模型的特性、资源受限、商业应用等多方面，有技术探索、建议和期望，整体氛围积极探讨]