模型与技术 新模型发布

深擎发布其AI研究人员使用2048个H800训练深擎 - V3 671B混合专家模型(MoE)的独家视频

[DeepSeek - V3 671B混合专家模型(MoE)在2048个H800上训练的相关视频发布后,大家讨论了DeepSeek的花费、模型结构、运行等情况,还涉及中西方相关话题、人才、资金投入、道德问题等多个方面,氛围比较多元且有争议性]

 ·  · 
模型与技术 性能对比

Deepseek v3训练成本远低于同类模型

[该讨论围绕Deepseek v3的训练资源远少于同类模型展开,涉及模型训练相关技术、性能比较、成本、审查等多方面的观点分享与讨论,整体氛围积极且多元化]

 ·  · 
模型与技术 新模型发布

Qwen将发布高水平模型且期待有测试推理

[原帖涉及qwen将发布十四行诗级模型及测试时间推理相关内容,评论中一部分在讨论卡通狗形象起源,另一部分涉及新模型的消息来源及对测试时间推理的态度等,氛围比较多元]

 ·  · 
模型与技术 新模型发布

DeepSeek V3以合成数据用于编码和数学,采用新预测技术

[围绕DeepSeek V3展开多方面讨论,包括与OpenAI的对比、开源意义、模型技术、运行成本、参数疑问等,氛围较为积极理性]

 ·  · 
模型与技术 性能对比

Deepseek V3在livecodebench上(最高非推理模型)

[关于Deepseek V3在livecodebench的表现展开讨论,涉及计算量、提示缓存、性能表现等方面,还包含对模型是否为非推理模型用词的争议,以及编码模型间的比较等内容,整体氛围积极探讨]

 ·  · 
模型与技术 新模型发布

微软Phi - 4在哪?

[关于微软Phi - 4未按时发布,大家进行各种讨论,包括对微软的调侃、对Phi - 4质量的质疑,还涉及人员流动等话题,整体氛围偏向不满与疑惑]

 ·  · 
模型与技术 性能对比

观Groq Llama3.3在大语言模型象棋竞技场击败xAI Grok

[原帖关于LLM在国际象棋竞技场对决的视频引发讨论,涉及竞赛创建、模型表现评价、开源情况、技术问题及改进建议等内容,整体氛围较为积极探索]

 ·  · 
模型与技术 性能对比

o1在编码方面表现平平

[原帖认为o1用于编码没什么亮点,评论者们围绕此观点展开讨论,涉及o1与Sonnet的比较、不同模型的特点、费用等方面,观点有支持原帖的也有持反对意见的,整体氛围热烈且观点多元]

 ·  · 
模型与技术 新模型发布

DeepSeek v3新增"Deep Think"选项,可展示思维链

[关于Deep Seek v3的功能展开讨论,包括“Deep Think”选项是否创新、R1 - lite - preview版本情况、搜索按钮特性等,讨论热度有高有低,整体氛围理性探讨]

 ·  · 
模型与技术 新模型发布

为何较少人讨论Phi-4模型

[围绕微软Phi - 4模型没有得到更多关注展开讨论,包括模型获取、性能、实际应用场景等方面的看法,整体氛围以理性探讨为主]

 ·  ·