模型与技术 其他

谷歌未意识到DeepSeek R1以FP8训练?

[帖子围绕Google是否理解DeepSeek R1在FP8中训练展开,评论涉及AI行业造假、DeepSeek R1运行硬件需求、模型精度、格式等多方面,氛围较为理性且多元]

 ·  · 
模型与技术 新模型发布

Sesame发布1B CSM但部分流程缺失

[Sesame发布1B CSM但部分管道缺失,引发众多讨论,包括对Sesame的失望、对创业公司常见问题的探讨、模型相关的各种评价以及与中美人工智能竞争的关联等,整体氛围以负面评价为主]

 ·  · 
模型与技术 性能对比

QwQ在LiveBench(更新):优于DeepSeek R1

[围绕QwQ在LiveBench上比DeepSeek R1更好这一话题展开讨论,涉及模型性能、测试情况、与其他模型比较等多方面,观点有褒有贬,争议较大]

 ·  · 
模型与技术 其他

CohereForAI的c4ai - command - a - 03 - 2025于Hugging Face

[围绕CohereForAI/c4ai - command - a - 03 - 2025展开讨论,涉及模型性能、价格、应用场景、许可证等多方面,既有正面评价也有负面评价,整体讨论热度较高]

 ·  · 
模型与技术 新模型发布

Cohere发布新模型Command A

[Cohere发布新模型Command A,用户对其表示祝贺、期待,在性能、运行、商业许可等多方面展开讨论,有肯定也有质疑,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Open SORA 2.0发布,再次对标OpenAI

[围绕Open SORA 2.0展开讨论,涉及它与其他模型对比、运行要求、性能优化等多方面内容,氛围较理性但也存在个别不当言论。]

 ·  · 
模型与技术 模型更新

Qwq - 32b在Livebench上完成更新

[围绕Qwq - 32b更新Livebench展开讨论,涉及模型性能、与其他模型比较、开源情况、本地运行以及对相关模型的期待与质疑等多方面内容,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Nous Deephermes 24b和3b发布

[关于Nous Deephermes 24b和3b发布,大家讨论了模型性能、存在意义、测试情况、硬件需求、潜在风险等多方面内容,整体氛围积极中夹杂担忧。]

 ·  · 
模型与技术 新模型发布

深度探究Gemma 3:谷歌是否增加计算预算?

[围绕Gemma 3模型的架构调整、性能表现等方面展开讨论,包含对其计算量、多语言性能、不同版本对比等观点,整体氛围比较理性探讨]

 ·  · 
模型与技术 新模型发布

Gemma3首次微调

[原帖提到新的Gemma3调优及遭遇自动审核问题,评论围绕Gemma3的各种话题展开,包括模型的使用、训练、审查、模板选择等,既有技术交流也有疑惑和个人观点分享。]

 ·  ·