硬件与部署 性能对比

Gemma3 - 12b - Q4在Ollama上比Deepseek - R1 - 14b - q8慢很多?是我弄错了吗

[原帖探讨Gemma3 - 12b - Q4在Ollama上比Deepseek - R1 - 14b - q8慢的问题,评论从kv缓存、系统配置、模型本身等多方面分析原因]

 ·  · 
模型与技术 性能对比

Reka Flash 3运行特定提示效果出色

[关于Reka Flash 3模型,有人认为其表现不错但需更多测试,有人分享使用体验、提出新测试场景,也有人给出负面评价,总体氛围积极与消极观点并存]

 ·  · 
模型与技术 性能对比

7B推理模型在IOI上超越Claude - 3.7 Sonnet

[关于7B推理模型在IOI上优于Claude - 3.7 Sonnet这一说法引发讨论,有人质疑测试可靠性、标题党嫌疑,也有人关注模型在其他测试中的表现等]

 ·  · 
模型与技术 性能对比

OpenAI o1模型与DeepSeek R1在ZebraLogic超大谜题性能上存在巨大差距

[关于OpenAI o1模型和DeepSeek R1在ZebraLogic X - Large谜题性能上的差距,大家从多个角度展开讨论,包括性能、成本、开源闭源等,有观点交锋,也有对基准测试本身的质疑]

 ·  · 
模型与技术 性能对比

Qwen QwQ-32B在淘汰游戏基准测试中首轮被投票淘汰,总体性能差

[围绕Qwen QwQ - 32B在Elimination Game Benchmark中表现不佳展开讨论,涉及模型的各种特性、淘汰原因、类似人类社会现象的类比等,整体氛围活跃且多元]

 ·  · 
模型与技术 性能对比

Qwen QwQ - 32B在创意故事写作基准测试中名列前茅

[关于Qwen QwQ - 32B加入创意故事写作基准前列,大家讨论了LLM的创作和评估能力、模型比较、对评估体系的质疑、对影视的期望、模型表现等多方面内容,整体氛围积极且充满思考。]

 ·  · 
模型与技术 性能对比

测试表明Qwen 2.5 VL强于多数封闭前沿模型

[关于Qwen 2.5 VL在EgoNormia基准测试中的表现,大家展开讨论,包括对模型的评价、期待、疑惑等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 性能对比

Deepseek coder v2表现出色

[围绕Deepseek coder v2展开讨论,涉及模型规格、性能、编程成果等方面,既有对模型的肯定与质疑,也有与其他模型的比较,整体氛围理性且充满技术探讨]

 ·  · 
模型与技术 性能对比

寻求专家意见:我是否触及了<10GB模型的极限?

[原帖作者在使用<10GB模型构建对话代理时遇到如指令理解困难等问题,寻求专家意见,评论者们给出了关于模型选择、优化建议、对不同规模模型性能的看法等多种观点]

 ·  · 
模型与技术 性能对比

70B模型尚不能独立处理代码库,但发展迅猛

[围绕70B模型能否单独处理代码库展开讨论,涉及模型性能、测试方法、不同模型的能力比较等,既有对70B模型能力的怀疑和否定,也有对其他模型表现的认可,讨论氛围较为理性且专业]

 ·  ·