模型与技术 技术讨论

DeepSeek大语言模型家族的纯C++ CPU推理:deepseek.cpp

[围绕deepseek.cpp项目展开讨论,涉及项目速度优化、教育意义、在低端设备上的可行性、与其他版本或项目的关联以及项目存在意义等方面,讨论氛围较为理性且有争议]

 ·  · 
模型与技术 技术讨论

Deepseek的GRPO方法奖励函数出错则劣于原模型

[原帖讨论GRPO在奖励函数出错时会比原模型差,评论从GRPO的特性、模型与奖励设置者的博弈、错误的普遍影响、小模型中的应用等多方面展开讨论,整体氛围较为理性探讨。]

 ·  · 
模型与技术 技术讨论

深析Deepseek R1论文中的语言混合问题

[原帖对Deepseek R1论文中研究界反对语言混合现象表示疑惑,评论者们从多语言学习体验、安全性、性能、思维链发展等多方面进行讨论,整体氛围较为理性且有不同观点交流]

 ·  · 
模型与技术 技术讨论

用原型MLX - GRPO训练器使Phi - 14b成为(初级)推理器

[原帖作者分享将Phi - 14b制为原始推理器的成果及实验相关情况,评论围绕实验可复现性、成果意义、技术疑问等展开,整体氛围积极且富有探索性]

 ·  · 
模型与技术 技术讨论

用户LLM记忆的最佳存储方式

[一位AI工程师寻求存储LLM用户记忆的高效方法,评论者们提出了多种方案,包括不同的工具、技术和算法,讨论热度有高有低,整体氛围积极且富有建设性]

 ·  · 
模型与技术 技术讨论

使用一万个GPU训练模型的工作原理

[原帖询问10000个GPU训练模型的运作方式,评论主要从不同角度解答,包括推荐教程、介绍训练拆分方式、提供相关资源等,整体氛围积极且具有技术探讨性]

 ·  · 
模型与技术 技术讨论

并非所有大语言模型都能解决此问题

[关于只有特定的大型语言模型(LLM)才能解决的算式问题,大家分享了不同模型的测试情况、解题思路、遇到的问题,整体氛围较为平淡,主要在交流各自的尝试结果。]

 ·  · 
模型与技术 技术讨论

使Mistral Small 3 24B像R1 - 蒸馏模型那样思考

[原帖关于在Mistral Small 3 24B模型上尝试CoT系统提示引发讨论,包括模型测试结果、提示工程的有效性、思维链与蒸馏的区别等多方面内容,整体讨论热度不高且观点多元]

 ·  · 
模型与技术 技术讨论

如何让DeepSeek深度思考?最长能持续多久?

[该讨论围绕如何让DeepSeek更多思考及最长能强迫其思考多久展开,涉及多种方法、观点和对模型思考相关问题的探讨,氛围较为理性且充满技术探讨氛围]

 ·  · 
模型与技术 技术讨论

长思考标记可能并非最佳方式

[围绕长思考标记是否是最佳方式展开讨论,主要观点包括思考过程对结果的影响、不同模型在思考方面的表现等,整体氛围比较理性探讨]

 ·  ·