模型与技术 技术讨论

Chris Manning认可Deepseek的600万美元训练成本

[围绕Deepseek的600万美元训练成本展开讨论,包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等,同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]

 ·  · 
模型与技术 技术讨论

伯克利AI研究团队称30美元重现DeepSeek核心技术

[伯克利AI研究团队声称以30美元重现DeepSeek核心技术,引发众多讨论,包括技术本身、成本、对OpenAI的影响、相关技术应用及技术发展的多个方面,整体氛围热烈且观点多元]

 ·  · 
模型与技术 技术讨论

本地模型参数R1值相当重要!

[原帖分享本地模型使用中的重要指令及参数设置,评论主要围绕不同模型的性能、温度等参数设置、指令遵循情况展开讨论,整体氛围比较平和,大家积极分享经验和疑惑。]

 ·  · 
模型与技术 技术讨论

提升DeepSeek R1推理轨迹

[原帖分享改善DeepSeek R1推理轨迹的历程,评论涉及代码分享、模型参数探讨、策略有效性等多方面内容,整体氛围较理性探讨]

 ·  · 
模型与技术 技术讨论

上周末优化DeepSeek V2/V3 llama.cpp实现 - PR #11446

[原帖作者优化DeepSeek V2/V3 llama.cpp实现,大家围绕PR未合并需重新转换模型、性能影响、DDR5相关参数、Epyc性能等展开讨论,整体氛围积极且充满技术探讨]

 ·  · 
模型与技术 技术讨论

Deepseek v3将使MoE开源模型更为常见

[原帖讲述Deepseek v3可能使MoE开源模型更普遍,评论者们围绕MoE模型的性能、规模、相关公司情况等展开讨论,整体氛围积极且多元]

 ·  · 
模型与技术 技术讨论

修复DeepSeek R1置信度问题的方法

[原帖分享解决Deepseek R1自信问题的方法,评论者们从不同角度表达反对意见,也有独特喜好者,同时还有人提出补充建议并分享相关经历。]

 ·  · 
模型与技术 技术讨论

2024年未接触本地大语言模型,2025年快速回顾

[原帖作者询问2024年未接触本地LLMs后现在能运行的模型,评论者们从不同角度给出了包括模型推荐、量化建议、2024年LLMs发展等多方面的回答,整体氛围积极且有干货]

 ·  · 
模型与技术 技术讨论

可从R1提取推理并传递给任意模型

[关于从R1提取推理传递给其他模型的话题,大家讨论了相关技术操作、模型组合、成本、效果等方面的内容,有支持有质疑,整体氛围积极且充满探索性]

 ·  · 
模型与技术 技术讨论

现在是学习R1模型的好时机

[原帖倡导利用工作流更好地使用R1等推理模型,评论者们围绕此展开讨论,有赞同、好奇、寻求帮助等多种回应,整体氛围积极且充满探索性]

 ·  ·