模型与技术 性能对比

DeepSeek R1比GPT 4.5更优的ARC - AGI

[该讨论围绕DeepSeek R1与GPT 4.5展开,涉及模型的价格、效果、推理能力等方面,有对OpenAI的看法,也包含一些诙谐调侃,整体氛围较活跃]

 ·  · 
模型与技术 性能对比

TinyR1 - 32B预览版(超越官方R1蒸馏32B性能)

[关于TinyR1 - 32B - Preview这个模型,讨论涵盖了其训练情况、性能表现、存在的问题、奇虎360的声誉,以及运行模型的相关硬件和费用等,既有积极的期待也有消极的评价]

 ·  · 
模型与技术 性能对比

Qwen2.5 Coder 32b是否仍为优秀编码模型

[围绕Qwen2.5 Coder 32b是否仍是一个好的编码模型展开讨论,涉及与其他模型比较、在不同场景下的表现、本地运行的优势等,大家观点不一且存在争议]

 ·  · 
模型与技术 性能对比

Gemma 2 2B:体积小,多语言性能强

[原帖讨论Gemma 2 2B多语言性能优异且对模型大小正常化趋势的看法,评论包含对Gemma的认可、性能比较、技术操作相关问题等,整体氛围积极]

 ·  · 
模型与技术 性能对比

Claude 3.7编码能力佳却在人工分析编码基准中排名低

[围绕Claude 3.7在人工分析编码基准测试中排名低却被认为适合编码展开讨论,有对基准测试意义的质疑、对Claude 3.7实际使用体验的分享等多种观点,整体氛围理性探讨]

 ·  · 
模型与技术 性能对比

Sonnet 3.7在LiveBench新结果中推理与非推理表现均居榜首

[围绕Sonnet 3.7的LiveBench新结果展开讨论,涉及与其他模型对比、性能评价、存在的问题等多方面,整体氛围积极与争议并存]

 ·  · 
模型与技术 性能对比

Sonnet 3.7在EQ - Bench基准测试中近乎大获全胜

[围绕Sonnet 3.7在EQ - Bench基准测试近乎全胜展开讨论,涉及模型性能、成本、评分可靠性等多方面,观点多样,既有肯定也有质疑,氛围较为理性]

 ·  · 
模型与技术 性能对比

Sonnet-3.7在误导性注意力评估中是最佳非思考模型

[原帖讨论Claude - 3.7 - Sonnet在非思考模式下的基准测试结果,评论者表达对基准测试的看法、对模型表现好坏原因的质疑、对不同模型的比较等多种观点,氛围较为积极且充满探索性]

 ·  · 
模型与技术 性能对比

是否有人使用KTransformers运行DeepSeek R1的1.58和2.51位量化版本

[帖子询问DeepSeek R1量化相关及不同CPU下数据比较,评论给出资源、性能数据、技术说明、硬件配置及处理器选择相关内容,整体氛围较技术向]

 ·  · 
模型与技术 性能对比

深擎在长文本语境表现出色

[围绕DeepSeek在长文本语境下的表现展开讨论,有对标题的质疑、模型间的比较、不同语境下的表现分析等,讨论氛围较有争议性]

 ·  ·