模型与技术 性能对比

DeepSeek -R1 -Lite -Preview在多项基准测试中似乎胜过DeepSeek V3,为何V3更受追捧?

[围绕DeepSeek - R1 - Lite - Preview和DeepSeek V3在多个基准测试中的表现展开讨论,涉及两者的性能、特点、热度差异等,大家各抒己见,整体氛围较为理性]

 ·  · 
模型与技术 技术讨论

1.58B无梯度内存训练新论文noise_step

[帖子介绍了noise_step相关内容,评论者们多对其表示质疑,包括存储容量、性能损失、实验依据等方面,整体氛围充满怀疑。]

 ·  · 
模型与技术 性能对比

Deepseek V3表现惊艳

[关于Deepseek的讨论涉及多个方面,包括性能、成本、试用体验、与其他模型的比较等,大家观点不一,有正面评价也有质疑,整体氛围比较多元。]

 ·  · 
模型与技术 性能对比

DeepSeek生成1美元价值的代币需近5小时

[围绕DeepSeek生成价值1美元代币的时长展开讨论,涉及与Sonnet的比较、DeepSeek的性能、质量、审查、硬件运行成本等多方面,既有正面评价也有质疑,整体氛围热烈且多元]

 ·  · 
模型与技术 性能对比

DeepSeek 600b模型网站运行快且API便宜的疑惑

[原帖对DeepSeek 600b模型在网站运行快且API便宜感到疑惑,评论从MoE模型特性、硬件要求、数据隐私等多方面展开讨论,整体氛围积极且充满技术探讨氛围。]

 ·  · 
模型与技术 新模型发布

DeepSeek - v3成为ProLLM最佳开源模型

[围绕DeepSeek - v3是最佳开源模型展开讨论,涉及基准测试、评判模型合理性、与其他模型比较、对模型的期待与质疑等多方面内容,氛围有争议且多元]

 ·  · 
模型与技术 新模型发布

创意型实验Command - R模型:基于1.85亿书籍标记训练微调

[围绕Experimental Command - R模型展开讨论,涉及训练成本、运行条件、资源链接等话题,整体氛围较为轻松]

 ·  · 
模型与技术 性能对比

当下创意写作是否有比Mistral Small 22b更好的模型

[原帖询问是否有比Mistral Small 22B更好的创意写作模型,评论者们分享了各自使用不同模型的体验、推荐其他模型并对原帖提到的模型进行评价,整体氛围积极交流且各抒己见]

 ·  · 
模型与技术 其他

Llama-3-8b-instruct的50个随机单词的前100个列表及其他有趣输出

[围绕llama - 3 - 8b - instruct相关内容展开讨论,涉及图片连接错误、对其是否浪费资源的质疑、大型语言模型相关知识的交流、工具推荐等,讨论热度较低且比较分散。]

 ·  · 
模型与技术 技术讨论

DeepSeek V3自托管:MOE剪枝设想

[围绕DeepSeek V3的MOE修剪展开讨论,涉及模型的特性、资源受限、商业应用等多方面,有技术探索、建议和期望,整体氛围积极探讨]

 ·  ·