模型与技术 性能对比

70B模型尚不能独立处理代码库,但发展迅猛

[围绕70B模型能否单独处理代码库展开讨论,涉及模型性能、测试方法、不同模型的能力比较等,既有对70B模型能力的怀疑和否定,也有对其他模型表现的认可,讨论氛围较为理性且专业]

 ·  · 
模型与技术 新模型发布

Qwen等系列共34个以上新模型发布

[帖子发布多种模型相关内容,评论涉及模型名字长度、性能测试、特定版本含义、硬件适配、对发布内容的态度等多方面内容,整体氛围较多元,有疑问、赞同与反对等不同态度。]

 ·  · 
模型与技术 其他

深探(Deepseek)特殊标记不使用下划线与竖线字符

[关于Deepseek特殊标记不使用下划线和竖线字符这一情况展开讨论,包括其带来的一系列问题、使用建议以及在不同场景下的影响,整体氛围偏向于理性探讨并带有一些不满情绪]

 ·  · 
模型与技术 其他

让Deepseek R1用西班牙语思考

[原帖讲述让Deepseek R1用西班牙语思考,评论围绕Deepseek R1的多语言思考能力、思考方式、测试结果、限制与发展等方面展开,有赞同也有质疑,整体氛围活跃且多元]

 ·  · 
模型与技术 新模型发布

Llama 4、Gemma 3和Qwen 3何时发布?

[该讨论围绕Llama 4、Gemma 3和Qwen 3的发布时间展开,包含各种推测、期望、疑问,同时涉及新模型的功能、竞争力等方面,整体氛围比较积极且充满好奇]

 ·  · 
模型与技术 新模型发布

下一个大型开源模型会是谁?

[原帖探讨哪个大型开源模型将接下来推出,评论者从不同角度进行预测、分析模型性能、研发情况,还涉及中国AI发展,整体氛围积极理性]

 ·  · 
模型与技术 性能对比

QwQ - 32B在EQ - Bench创意写作中位居第二,高于GPT 4.5和Claude 3.7

[关于QwQ - 32B在EQ - Bench创意写作中排第二高于GPT 4.5和Claude 3.7这一事件,大家从模型能力、排名合理性、创意写作评测方式等多方面展开讨论,氛围较为争议性]

 ·  · 
模型与技术 性能对比

Mistral Small 24B在51秒内完成QwQ 40分钟未完成之事

[围绕Mistral Small 24B和QwQ在任务中的表现展开讨论,涉及推理模型、模型性能、大小等多方面,有对测试结果的质疑,也有分享使用体验和期待]

 ·  · 
模型与技术 性能对比

Qwen团队坚信模型应重新评测

[关于Qwen模型在LiveBench跑分相关事件引发的讨论,包括模型配置、跑分结果、表现评价等内容,整体氛围较为理性探讨]

 ·  · 
模型与技术 性能对比

Qwen、Claude 3.7 Sonnet Thinking与o1 - mini在扩展版《纽约时报》连接基准测试中的对比

[在关于Qwen QwQ在Extended NYT Connections基准测试中的表现的讨论中,涉及到与其他模型对比、中国科技表现等话题,有对模型表现的评价、疑惑以及调侃等多种观点,整体氛围积极探讨]

 ·  ·