模型与技术 训练与微调技术

模型微调最佳框架:大家都在用什么?

[讨论微调模型的框架工具,包括axolotl、Unsloth、Torchtune、MLX LM、Kiln、openpipe.ai等,涉及多GPU支持、特定系统下的工具、无代码工具等方面,整体氛围积极且信息丰富]

 ·  · 
模型与技术 技术讨论

Deepseek v3将使MoE开源模型更为常见

[原帖讲述Deepseek v3可能使MoE开源模型更普遍,评论者们围绕MoE模型的性能、规模、相关公司情况等展开讨论,整体氛围积极且多元]

 ·  · 
模型与技术 性能对比

Sky-T1-32B-Flash:削减推理成本50%且不牺牲精度

[帖子围绕Sky - T1 - 32B - Flash展开,包含模型合并、评估、性能比较等内容,评论者有感谢、认可,也有对新型模型的讨论和一些资源搜索请求,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

字节跳动宣布豆包1.5专业版

[字节跳动宣布Doubao - 1.5 - pro引发讨论,多数观点对其非开源不满,也涉及模型比较、使用体验等方面,整体氛围负面情绪较多]

 ·  · 
模型与技术 新模型发布

惊叹于32B融合模型的表现

[原帖惊叹于32B模型的表现,评论围绕模型融合、性能、微调等方面展开,有赞同、质疑、调侃等多种态度,整体氛围活跃且多元。]

 ·  · 
模型与技术 新模型发布

中国AI初创公司DeepSeek打造可与OpenAI媲美的模型

[关于中国AI初创公司DeepSeek的模型可与OpenAI相媲美的帖子引发讨论,涉及推广、商业原因、模型优势、数据隐私等多方面内容,氛围多样包含调侃、厌烦等]

 ·  · 
模型与技术 性能对比

Deepseek - R1:使用体验最糟糕的模型

[原帖称Deepseek - R1模型在ERP方面很“污秽”,引发关于模型使用体验、版本、性能等讨论,同时有人担忧AI发展带来社会影响,部分人对原帖无示例表示质疑]

 ·  · 
模型与技术 性能对比

Deepseek在Python代码生成方面远胜ChatGPT(指两者免费版本)

[原帖认为Deepseek在Python代码生成方面优于ChatGPT免费版,评论中有人认同,有人提出其他观点如Claude Sonnet 3.5更厉害,还涉及GPT不同版本、ChatGPT不同版本的优劣,以及对Deepseek的怀疑等内容,整体氛围比较多元]

 ·  · 
模型与技术 性能对比

当下最佳本地编码AI是哪个?

[原帖询问本地用于编码的最佳AI,评论者们从不同角度给出了各种模型的评价、推荐、比较,还涉及编程语言对编码的影响以及本地运行相关内容]

 ·  · 
模型与技术 性能对比

DeepSeek R1与o1 Pro对比

[围绕DeepSeek R1和o1 Pro的比较展开讨论,涉及多个方面如不同任务中的表现、使用体验等,大家观点不一且有一定争议]

 ·  ·