模型与技术 新模型发布

DeepSeek - v3成为ProLLM最佳开源模型

[围绕DeepSeek - v3是最佳开源模型展开讨论,涉及基准测试、评判模型合理性、与其他模型比较、对模型的期待与质疑等多方面内容,氛围有争议且多元]

 ·  · 
模型与技术 新模型发布

创意型实验Command - R模型:基于1.85亿书籍标记训练微调

[围绕Experimental Command - R模型展开讨论,涉及训练成本、运行条件、资源链接等话题,整体氛围较为轻松]

 ·  · 
模型与技术 新模型发布

深擎发布其AI研究人员使用2048个H800训练深擎 - V3 671B混合专家模型(MoE)的独家视频

[DeepSeek - V3 671B混合专家模型(MoE)在2048个H800上训练的相关视频发布后,大家讨论了DeepSeek的花费、模型结构、运行等情况,还涉及中西方相关话题、人才、资金投入、道德问题等多个方面,氛围比较多元且有争议性]

 ·  · 
模型与技术 新模型发布

Qwen将发布高水平模型且期待有测试推理

[原帖涉及qwen将发布十四行诗级模型及测试时间推理相关内容,评论中一部分在讨论卡通狗形象起源,另一部分涉及新模型的消息来源及对测试时间推理的态度等,氛围比较多元]

 ·  · 
模型与技术 新模型发布

DeepSeek V3以合成数据用于编码和数学,采用新预测技术

[围绕DeepSeek V3展开多方面讨论,包括与OpenAI的对比、开源意义、模型技术、运行成本、参数疑问等,氛围较为积极理性]

 ·  · 
模型与技术 新模型发布

微软Phi - 4在哪?

[关于微软Phi - 4未按时发布,大家进行各种讨论,包括对微软的调侃、对Phi - 4质量的质疑,还涉及人员流动等话题,整体氛围偏向不满与疑惑]

 ·  · 
模型与技术 新模型发布

DeepSeek v3新增"Deep Think"选项,可展示思维链

[关于Deep Seek v3的功能展开讨论,包括“Deep Think”选项是否创新、R1 - lite - preview版本情况、搜索按钮特性等,讨论热度有高有低,整体氛围理性探讨]

 ·  · 
模型与技术 新模型发布

为何较少人讨论Phi-4模型

[围绕微软Phi - 4模型没有得到更多关注展开讨论,包括模型获取、性能、实际应用场景等方面的看法,整体氛围以理性探讨为主]

 ·  · 
模型与技术 新模型发布

Deepseek V3正式发布(代码、论文、基准测试结果)

[DeepSeek - V3发布后,用户围绕其架构创新、预训练效率、性能、成本、运行要求等多方面展开讨论,整体氛围积极且充满技术探讨氛围]

 ·  · 
模型与技术 新模型发布

DeepSeek V3聊天版权重已上传至Huggingface

[关于Deepseek V3 Chat版本权重上传到Huggingface的帖子引发多种讨论,包括模型规模、运行方法、硬件需求等方面,同时也涉及Elon Musk相关话题,整体氛围较为轻松且包含技术探讨]

 ·  ·