Chris Manning认可Deepseek的600万美元训练成本
[围绕Deepseek的600万美元训练成本展开讨论,包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等,同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]
[围绕Deepseek的600万美元训练成本展开讨论,包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等,同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]
[伯克利AI研究团队声称以30美元重现DeepSeek核心技术,引发众多讨论,包括技术本身、成本、对OpenAI的影响、相关技术应用及技术发展的多个方面,整体氛围热烈且观点多元]
[原帖分享本地模型使用中的重要指令及参数设置,评论主要围绕不同模型的性能、温度等参数设置、指令遵循情况展开讨论,整体氛围比较平和,大家积极分享经验和疑惑。]
[原帖分享改善DeepSeek R1推理轨迹的历程,评论涉及代码分享、模型参数探讨、策略有效性等多方面内容,整体氛围较理性探讨]
[原帖作者优化DeepSeek V2/V3 llama.cpp实现,大家围绕PR未合并需重新转换模型、性能影响、DDR5相关参数、Epyc性能等展开讨论,整体氛围积极且充满技术探讨]
[原帖讲述Deepseek v3可能使MoE开源模型更普遍,评论者们围绕MoE模型的性能、规模、相关公司情况等展开讨论,整体氛围积极且多元]
[原帖分享解决Deepseek R1自信问题的方法,评论者们从不同角度表达反对意见,也有独特喜好者,同时还有人提出补充建议并分享相关经历。]
[原帖作者询问2024年未接触本地LLMs后现在能运行的模型,评论者们从不同角度给出了包括模型推荐、量化建议、2024年LLMs发展等多方面的回答,整体氛围积极且有干货]
[关于从R1提取推理传递给其他模型的话题,大家讨论了相关技术操作、模型组合、成本、效果等方面的内容,有支持有质疑,整体氛围积极且充满探索性]
[原帖倡导利用工作流更好地使用R1等推理模型,评论者们围绕此展开讨论,有赞同、好奇、寻求帮助等多种回应,整体氛围积极且充满探索性]