技术讨论 | LLM Info

Chris Manning认可Deepseek的600万美元训练成本

[围绕Deepseek的600万美元训练成本展开讨论，包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等，同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]

[伯克利AI研究团队声称以30美元重现DeepSeek核心技术，引发众多讨论，包括技术本身、成本、对OpenAI的影响、相关技术应用及技术发展的多个方面，整体氛围热烈且观点多元]

[原帖分享本地模型使用中的重要指令及参数设置，评论主要围绕不同模型的性能、温度等参数设置、指令遵循情况展开讨论，整体氛围比较平和，大家积极分享经验和疑惑。]

[原帖分享改善DeepSeek R1推理轨迹的历程，评论涉及代码分享、模型参数探讨、策略有效性等多方面内容，整体氛围较理性探讨]

[原帖作者优化DeepSeek V2/V3 llama.cpp实现，大家围绕PR未合并需重新转换模型、性能影响、DDR5相关参数、Epyc性能等展开讨论，整体氛围积极且充满技术探讨]

[原帖讲述Deepseek v3可能使MoE开源模型更普遍，评论者们围绕MoE模型的性能、规模、相关公司情况等展开讨论，整体氛围积极且多元]

[原帖分享解决Deepseek R1自信问题的方法，评论者们从不同角度表达反对意见，也有独特喜好者，同时还有人提出补充建议并分享相关经历。]

[原帖作者询问2024年未接触本地LLMs后现在能运行的模型，评论者们从不同角度给出了包括模型推荐、量化建议、2024年LLMs发展等多方面的回答，整体氛围积极且有干货]

[关于从R1提取推理传递给其他模型的话题，大家讨论了相关技术操作、模型组合、成本、效果等方面的内容，有支持有质疑，整体氛围积极且充满探索性]

[原帖倡导利用工作流更好地使用R1等推理模型，评论者们围绕此展开讨论，有赞同、好奇、寻求帮助等多种回应，整体氛围积极且充满探索性]