模型与技术 技术讨论

Chris Manning认可Deepseek的600万美元训练成本

[围绕Deepseek的600万美元训练成本展开讨论,包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等,同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]

 ·  · 
模型与技术 其他

12/13B模型中最适合成人角色扮演的是哪个

[在关于NSFW角色扮演最喜爱的12/13B模型的讨论中,大家分享了各自喜欢的模型、使用经验、模型的特点以及不同模型在角色扮演中的适用情况,整体氛围比较和谐]

 ·  · 
模型与技术 新模型发布

Mistral - Small - 24B - Base - 2501在Hugging Face发布

[围绕Mistral - Small - 24B - Base - 2501展开讨论,涉及模型性能、发展、特性等多方面,整体氛围积极且充满好奇]

 ·  · 
模型与技术 性能对比

Mistral Small 3一分钟完成Unsloth的Flappy Bird编码测试(DeepSeek R1使用NVME硬盘需3小时)

[关于Mistral Small 3和DeepSeek R1在Unsloth的Flappy Bird编码测试中的表现对比引发讨论,涉及模型性能、测试意义、比较公平性等多个方面,整体氛围比较理性探讨]

 ·  · 
模型与技术 性能对比

Mistral - Small - 24B - 2501与Mistral - Small - 2409对比

[围绕Mistral - Small - 24B - 2501与Mistral - Small - 2409的对比,既有对模型性能提升的肯定,也有指出新模型存在的问题,整体氛围较为理性]

 ·  · 
模型与技术 模型更新

DeepSeek R1再蒸馏取得成果

[围绕Re - Distilling DeepSeek R1展开讨论,涉及模型蒸馏相关的技术、成本、硬件等多方面问题,有幽默调侃也有正经的技术探讨]

 ·  · 
模型与技术 性能对比

Mistral Small 3 24b的上下文窗口效率极高

[围绕Mistral Small 3 24b模型在与Qwen2.5模型比较中的效率、VRAM使用、上下文长度等方面展开讨论,还涉及模型潜力、使用场景、基准测试等话题,整体氛围积极且讨论深入。]

 ·  · 
模型与技术 其他

R1模型实际用途探究

[围绕R1的实际用途展开讨论,包括在编码、创意写作、解决问题等多方面的应用,不同人有不同看法,也涉及与其他模型的比较,整体氛围比较理性务实]

 ·  · 
模型与技术 性能对比

DeepSeek R1在NYT Connections上的得分介于o1和o1 - mini之间

[原帖讨论DeepSeek R1在NYT Connections的得分,评论涉及Mistral Small 3测试、结果比较、资源补充、模型相关问题、感谢、对测试公平性的质疑和得分差距等,整体氛围较平和。]

 ·  · 
模型与技术 性能对比

Mistral Small 3 24b Q6初始测试结果

[围绕Mistral Small 3 24b Q6的测试结果展开讨论,涉及模型在不同任务中的表现、与其他模型对比、存在的问题以及测试中的一些条件等内容,整体氛围理性且多元]

 ·  ·