Chris Manning认可Deepseek的600万美元训练成本
[围绕Deepseek的600万美元训练成本展开讨论,包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等,同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]
[围绕Deepseek的600万美元训练成本展开讨论,包括对Chris Manning认可该成本的看法、成本与其他公司的比较、对Deepseek的信任等,同时夹杂着荒诞调侃和对将Chris Manning列为世界前3的NLP研究者的质疑]
[在关于NSFW角色扮演最喜爱的12/13B模型的讨论中,大家分享了各自喜欢的模型、使用经验、模型的特点以及不同模型在角色扮演中的适用情况,整体氛围比较和谐]
[围绕Mistral - Small - 24B - Base - 2501展开讨论,涉及模型性能、发展、特性等多方面,整体氛围积极且充满好奇]
[关于Mistral Small 3和DeepSeek R1在Unsloth的Flappy Bird编码测试中的表现对比引发讨论,涉及模型性能、测试意义、比较公平性等多个方面,整体氛围比较理性探讨]
[围绕Mistral - Small - 24B - 2501与Mistral - Small - 2409的对比,既有对模型性能提升的肯定,也有指出新模型存在的问题,整体氛围较为理性]
[围绕Re - Distilling DeepSeek R1展开讨论,涉及模型蒸馏相关的技术、成本、硬件等多方面问题,有幽默调侃也有正经的技术探讨]
[围绕Mistral Small 3 24b模型在与Qwen2.5模型比较中的效率、VRAM使用、上下文长度等方面展开讨论,还涉及模型潜力、使用场景、基准测试等话题,整体氛围积极且讨论深入。]
[围绕R1的实际用途展开讨论,包括在编码、创意写作、解决问题等多方面的应用,不同人有不同看法,也涉及与其他模型的比较,整体氛围比较理性务实]
[原帖讨论DeepSeek R1在NYT Connections的得分,评论涉及Mistral Small 3测试、结果比较、资源补充、模型相关问题、感谢、对测试公平性的质疑和得分差距等,整体氛围较平和。]
[围绕Mistral Small 3 24b Q6的测试结果展开讨论,涉及模型在不同任务中的表现、与其他模型对比、存在的问题以及测试中的一些条件等内容,整体氛围理性且多元]