性能对比 | LLM Info

R1与其提炼物间稳健性对比的好方法：除法精度

[该帖子围绕R1及其蒸馏模型在除法精度上的稳健性比较展开讨论，包含对比较方式、合成数据、模型性能等多方面的观点探讨，讨论热度有高有低，存在不同观点的交锋]

[在编码方面，大家分享了O1、R1、Sonnet的使用经验，比较了它们的性能、成本等方面的差异，还涉及到一些模型相关成果，整体氛围比较理性地交流]

[阿里巴巴开源多模态安卓应用引发讨论，涉及应用性能、功能、发布、安全性等方面，既有惊叹与期待，也有疑惑与质疑]

[原帖抱怨本地音频模型差，Suno好，想寻求本地模型改进方法，评论中有人推荐相关项目，有人幽默调侃，还就Suno效果好是否与版权问题有关展开激烈争议]

[原帖传出华为910C将使性能翻倍等相关信息，评论围绕华为910C的TDP、内存、定价等方面展开讨论，也涉及华为受打压、竞争等宏观话题，整体氛围以理性探讨为主]

[帖子对比DeepSeek - R1和DeepSeek - R1 - Zero有令人惊讶的结果，评论涉及AGI概念、要求补充信息源、质疑基准测试结果、对模型推理现象感兴趣、审查相关等多方面内容，整体氛围比较理性探讨]

[讨论DeepSeek R1和Llama3的比较，涉及性能、推理、硬件需求等多方面，观点多样且有争议，整体氛围较为理性。]

[原帖询问Llama 3.3 70b和Deepseek r1 70b哪个更好，评论者们在缺乏大规模参数对比下，从不同角度如任务、自身使用体验、指令遵循能力等方面进行讨论，总体氛围比较理性探讨]

[帖子围绕Sky - T1 - 32B - Flash展开，包含模型合并、评估、性能比较等内容，评论者有感谢、认可，也有对新型模型的讨论和一些资源搜索请求，整体氛围积极且充满探索性]

[原帖称Deepseek - R1模型在ERP方面很“污秽”，引发关于模型使用体验、版本、性能等讨论，同时有人担忧AI发展带来社会影响，部分人对原帖无示例表示质疑]