模型与技术 性能对比

LG的EXAONE 2.4b模型性能超棒

[原帖探讨LG的EXAONE 2.4b模型在基准测试中的优异表现,评论有认可也有怀疑,还涉及模型许可证、与其他模型比较等内容,整体氛围争议与好奇并存]

 ·  · 
模型与技术 新模型发布

LG发布Exaone深度思考模型

[围绕LG发布的Exaone Deep Thinking Model展开讨论,涉及模型性能、许可证、实用性等多方面内容,有调侃、疑问、期待等多种态度。]

 ·  · 
模型与技术 新模型发布

昆仑万维公司发布Skywork - R1V - 38B(视觉思维链推理模型)

[昆仑万维发布Skywork - R1V - 38B模型引发讨论,涉及与其他公司竞争、模型发展阶段、基准测试等话题,既有对新模型的认可也有疑惑等不同态度。]

 ·  · 
模型与技术 性能对比

Mistral Small 3.1未包含在公告中的基准性能

[围绕Mistral Small 3.1在未公告基准测试中的性能展开讨论,包含与其他模型的比较、对基准测试本身意义的质疑、模型在不同场景下的表现等多方面内容,整体讨论热度不高,观点多样]

 ·  · 
模型与技术 性能对比

Gemma3在STEM领域表现令人失望

[原帖认为Gemma3在STEM方面表现一般,众多评论围绕Gemma3的性能展开讨论,有比较、分析、提出改进建议等,整体氛围较为理性探讨。]

 ·  · 
模型与技术 性能对比

EXAONE-Deep-7.8B或为体验过的最差推理模型

[围绕EXAONE - Deep - 7.8B模型的表现展开讨论,有认为模型表现差的,也有反驳称是配置或量化问题的,整体氛围是对该模型的质疑与探索]

 ·  · 
模型与技术 性能对比

Cohere Command A与Mistral Small 3.1的扩展纽约时报连接基准测试结果

[帖子给出Cohere Command A和Mistral Small 3.1的结果,评论涉及数据结果、模型性能、基准分数、对未测试模型的期待以及一些个人测试感受,整体氛围较平淡且有少量负面情绪]

 ·  · 
模型与技术 新模型发布

开源推理模型Skywork - R1V (38B,多模态,CoT推理)

[围绕新开源推理模型Skywork - R1V展开讨论,涉及与其他模型对比、模型自身评价、公司成果、地域关联以及在软件上的运行等话题,整体氛围较平和且多为正面评价]

 ·  · 
模型与技术 性能对比

Gemma - 3 - 27B视觉能力差强人意

[关于Gemma - 3 - 27B视觉能力不尽人意的讨论,涉及与其他模型对比、自身测试情况、人类视觉处理的借鉴以及不同任务场景下的表现等,整体氛围倾向于对Gemma - 3 - 27B视觉能力的失望。]

 ·  · 
模型与技术 性能对比

深度探索R1模型是否因过度思考而犯错

[关于DeepSeek R1模型是否会过度思考而导致出错展开讨论,有分享类似经历、分析原因、提出改进方向等多种观点,整体氛围比较理性但也有情绪化表达]

 ·  ·