模型与技术

深擎发布其AI研究人员使用2048个H800训练深擎 - V3 671B混合专家模型（MoE）的独家视频

[DeepSeek - V3 671B混合专家模型（MoE）在2048个H800上训练的相关视频发布后，大家讨论了DeepSeek的花费、模型结构、运行等情况，还涉及中西方相关话题、人才、资金投入、道德问题等多个方面，氛围比较多元且有争议性]

[该讨论围绕Deepseek v3的训练资源远少于同类模型展开，涉及模型训练相关技术、性能比较、成本、审查等多方面的观点分享与讨论，整体氛围积极且多元化]

[原帖涉及qwen将发布十四行诗级模型及测试时间推理相关内容，评论中一部分在讨论卡通狗形象起源，另一部分涉及新模型的消息来源及对测试时间推理的态度等，氛围比较多元]

[围绕DeepSeek V3展开多方面讨论，包括与OpenAI的对比、开源意义、模型技术、运行成本、参数疑问等，氛围较为积极理性]

[关于Deepseek V3在livecodebench的表现展开讨论，涉及计算量、提示缓存、性能表现等方面，还包含对模型是否为非推理模型用词的争议，以及编码模型间的比较等内容，整体氛围积极探讨]

[关于微软Phi - 4未按时发布，大家进行各种讨论，包括对微软的调侃、对Phi - 4质量的质疑，还涉及人员流动等话题，整体氛围偏向不满与疑惑]

[原帖关于LLM在国际象棋竞技场对决的视频引发讨论，涉及竞赛创建、模型表现评价、开源情况、技术问题及改进建议等内容，整体氛围较为积极探索]

[原帖认为o1用于编码没什么亮点，评论者们围绕此观点展开讨论，涉及o1与Sonnet的比较、不同模型的特点、费用等方面，观点有支持原帖的也有持反对意见的，整体氛围热烈且观点多元]

[关于Deep Seek v3的功能展开讨论，包括“Deep Think”选项是否创新、R1 - lite - preview版本情况、搜索按钮特性等，讨论热度有高有低，整体氛围理性探讨]

[围绕微软Phi - 4模型没有得到更多关注展开讨论，包括模型获取、性能、实际应用场景等方面的看法，整体氛围以理性探讨为主]