R1与其提炼物间稳健性对比的好方法:除法精度
[该帖子围绕R1及其蒸馏模型在除法精度上的稳健性比较展开讨论,包含对比较方式、合成数据、模型性能等多方面的观点探讨,讨论热度有高有低,存在不同观点的交锋]
[该帖子围绕R1及其蒸馏模型在除法精度上的稳健性比较展开讨论,包含对比较方式、合成数据、模型性能等多方面的观点探讨,讨论热度有高有低,存在不同观点的交锋]
[在编码方面,大家分享了O1、R1、Sonnet的使用经验,比较了它们的性能、成本等方面的差异,还涉及到一些模型相关成果,整体氛围比较理性地交流]
[阿里巴巴开源多模态安卓应用引发讨论,涉及应用性能、功能、发布、安全性等方面,既有惊叹与期待,也有疑惑与质疑]
[原帖抱怨本地音频模型差,Suno好,想寻求本地模型改进方法,评论中有人推荐相关项目,有人幽默调侃,还就Suno效果好是否与版权问题有关展开激烈争议]
[原帖传出华为910C将使性能翻倍等相关信息,评论围绕华为910C的TDP、内存、定价等方面展开讨论,也涉及华为受打压、竞争等宏观话题,整体氛围以理性探讨为主]
[帖子对比DeepSeek - R1和DeepSeek - R1 - Zero有令人惊讶的结果,评论涉及AGI概念、要求补充信息源、质疑基准测试结果、对模型推理现象感兴趣、审查相关等多方面内容,整体氛围比较理性探讨]
[讨论DeepSeek R1和Llama3的比较,涉及性能、推理、硬件需求等多方面,观点多样且有争议,整体氛围较为理性。]
[原帖询问Llama 3.3 70b和Deepseek r1 70b哪个更好,评论者们在缺乏大规模参数对比下,从不同角度如任务、自身使用体验、指令遵循能力等方面进行讨论,总体氛围比较理性探讨]
[帖子围绕Sky - T1 - 32B - Flash展开,包含模型合并、评估、性能比较等内容,评论者有感谢、认可,也有对新型模型的讨论和一些资源搜索请求,整体氛围积极且充满探索性]
[原帖称Deepseek - R1模型在ERP方面很“污秽”,引发关于模型使用体验、版本、性能等讨论,同时有人担忧AI发展带来社会影响,部分人对原帖无示例表示质疑]