模型与技术 新模型发布

Deepseek - R1模型的GGUF量化版本发布等相关资源

[原帖发布Deepseek - R1相关模型资源,评论者围绕模型的使用、技术问题、量化版本、微调等方面提问、感谢或发表看法,整体氛围积极友好]

 ·  · 
模型与技术 性能对比

Deepseek R1在Livebench上总体优于o1 - preview

[围绕Deepseek R1在Livebench上优于o1 - preview展开讨论,涉及与其他产品比较、编码能力、服务条款问题、正面体验等,整体氛围积极且充满探讨性]

 ·  · 
模型与技术 性能对比

开源模型小到可在单张3090显卡运行,多数基准测试表现远超数月前超专有闭源顶尖模型

[原帖提及单张3090运行的开源模型在基准测试优于闭源模型,评论围绕开源模型展开,包括对其能否真的优于Claude的怀疑、性能评估的看法以及存在的诸如上下文窗口等问题]

 ·  · 
模型与技术 新模型发布

深探测试回顾

[原帖作者分享DeepSeek R1模型测试情况,评论者围绕模型编码能力、与V3对比、试用方法、运行硬件、代码分享等方面展开讨论,整体氛围较为积极正面]

 ·  · 
模型与技术 性能对比

Phi - 4在LMSYS竞技场上取得1210 ELO分数

[围绕Phi - 4在LMSYS竞技场1210 ELO的分数展开讨论,涉及模型功能、性能、限制、相关概念的趣味性以及比赛公平性等话题]

 ·  · 
模型与技术 性能对比

DeepSeek - R1在逻辑推理基准测试中碾压其他模型

[围绕DeepSeek - R1在逻辑推理基准测试中的表现展开讨论,涉及模型对比、标题准确性、测试相关话题等,存在不同观点且氛围理性]

 ·  · 
模型与技术 性能对比

QwQ 32b性能优于R1 32b - 附测试内容

[原帖对比QwQ 32b和R1 32b得出QwQ更好的结论,评论主要围绕这一比较展开,涉及模型性能不稳定、量化问题等,整体氛围倾向于探讨影响比较结果的各种因素]

 ·  · 
模型与技术 新模型发布

DeepSeek-R1-Distill系列模型

[帖子展示了DeepSeek - R1 - Distill - Llama - 8B、DeepSeek - R1 - Distill - Qwen - 7B和14b相关链接,评论主要围绕对DeepSeek项目的赞赏、模型运行情况、知识蒸馏相关疑问以及模型训练相关问题展开,整体氛围较为平静]

 ·  · 
模型与技术 技术讨论

让Qwen Deepseek 32b R1模型正常运行:系统提示?

[原帖寻求Deepseek 32b R1模型的系统提示,评论者从多个角度进行讨论,包括模型是否需要系统提示、模型的格式、运行中的技术问题等,整体氛围是积极的技术交流]

 ·  · 
模型与技术 性能对比

最接近Claude 3.5 Sonnet的模型

[原帖寻求与Claude 3.5 Sonnet接近的开放模型,评论围绕不同模型推荐、与Claude的比较、模型能力、人格等展开,整体氛围理性讨论为主]

 ·  ·