性能对比 | LLM Info

Gemma3 - 12b - Q4在Ollama上比Deepseek - R1 - 14b - q8慢很多？是我弄错了吗

[原帖探讨Gemma3 - 12b - Q4在Ollama上比Deepseek - R1 - 14b - q8慢的问题，评论从kv缓存、系统配置、模型本身等多方面分析原因]

[关于Reka Flash 3模型，有人认为其表现不错但需更多测试，有人分享使用体验、提出新测试场景，也有人给出负面评价，总体氛围积极与消极观点并存]

[关于7B推理模型在IOI上优于Claude - 3.7 Sonnet这一说法引发讨论，有人质疑测试可靠性、标题党嫌疑，也有人关注模型在其他测试中的表现等]

[关于OpenAI o1模型和DeepSeek R1在ZebraLogic X - Large谜题性能上的差距，大家从多个角度展开讨论，包括性能、成本、开源闭源等，有观点交锋，也有对基准测试本身的质疑]

[围绕Qwen QwQ - 32B在Elimination Game Benchmark中表现不佳展开讨论，涉及模型的各种特性、淘汰原因、类似人类社会现象的类比等，整体氛围活跃且多元]

[关于Qwen QwQ - 32B加入创意故事写作基准前列，大家讨论了LLM的创作和评估能力、模型比较、对评估体系的质疑、对影视的期望、模型表现等多方面内容，整体氛围积极且充满思考。]

[关于Qwen 2.5 VL在EgoNormia基准测试中的表现，大家展开讨论，包括对模型的评价、期待、疑惑等，整体氛围积极且充满探索性]

[围绕Deepseek coder v2展开讨论，涉及模型规格、性能、编程成果等方面，既有对模型的肯定与质疑，也有与其他模型的比较，整体氛围理性且充满技术探讨]

[原帖作者在使用<10GB模型构建对话代理时遇到如指令理解困难等问题，寻求专家意见，评论者们给出了关于模型选择、优化建议、对不同规模模型性能的看法等多种观点]

[围绕70B模型能否单独处理代码库展开讨论，涉及模型性能、测试方法、不同模型的能力比较等，既有对70B模型能力的怀疑和否定，也有对其他模型表现的认可，讨论氛围较为理性且专业]