硬件与部署 性能对比

使用llama.cpp RPC在不同硬件配置下的性能测试

[原帖分享不同GPU配置下的性能测试结果,评论主要围绕结果呈现方式、原帖观点的争议、特定设置的缺陷、对总结的需求以及硬件混合的疑问等方面展开]

 ·  · 
模型与技术 性能对比

QwQ - 32B在EQ - Bench创意写作中位居第二,高于GPT 4.5和Claude 3.7

[关于QwQ - 32B在EQ - Bench创意写作中排第二高于GPT 4.5和Claude 3.7这一事件,大家从模型能力、排名合理性、创意写作评测方式等多方面展开讨论,氛围较为争议性]

 ·  · 
模型与技术 性能对比

Mistral Small 24B在51秒内完成QwQ 40分钟未完成之事

[围绕Mistral Small 24B和QwQ在任务中的表现展开讨论,涉及推理模型、模型性能、大小等多方面,有对测试结果的质疑,也有分享使用体验和期待]

 ·  · 
模型与技术 性能对比

Qwen团队坚信模型应重新评测

[关于Qwen模型在LiveBench跑分相关事件引发的讨论,包括模型配置、跑分结果、表现评价等内容,整体氛围较为理性探讨]

 ·  · 
模型与技术 性能对比

Qwen、Claude 3.7 Sonnet Thinking与o1 - mini在扩展版《纽约时报》连接基准测试中的对比

[在关于Qwen QwQ在Extended NYT Connections基准测试中的表现的讨论中,涉及到与其他模型对比、中国科技表现等话题,有对模型表现的评价、疑惑以及调侃等多种观点,整体氛围积极探讨]

 ·  · 
模型与技术 性能对比

本地QwQ 32b、O1 Pro、4.5、o3 Mini High、Sonnet 3.7、Deepseek R1的Flappy Bird测试与对比

[在对多种LLMs进行Flappy Bird游戏编程测试的讨论中,涉及各模型性能比较、量化影响、特定模型表现及测试改进建议等,整体氛围积极探索]

 ·  · 
硬件与部署 性能对比

旧款双至强服务器用于大语言模型推理?

[关于旧双Xeon服务器用于LLM推理的讨论,涉及服务器性能、计算受限、内存带宽等多方面,整体氛围较为理性且具有技术探讨性]

 ·  · 
模型与技术 性能对比

QwQ-32B无限生成修复及最佳实践、漏洞修复

[原帖分享QwQ - 32B无限生成修复及最佳实践等内容,评论包含技术讨论、问题求助、赞扬感谢以及部分反对声音等多方面内容]

 ·  · 
模型与技术 性能对比

QwQ在LiveBench上优于Sonnet 3.7(无思考能力)

[围绕QwQ on LiveBench与Sonnet 3.7的比较展开讨论,涉及QwQ的性能、使用体验、模型规模、技术发展等多方面,存在不同观点且有一定争议。]

 ·  · 
模型与技术 性能对比

AIDER:32b在编码方面比qwen 2.5 coder instruct 32b更智能

[围绕32b与qwen 2.5 coder instruct 32b编码能力比较展开讨论,涉及模型测试、性能表现、硬件资源等多方面,讨论氛围较理性且存在不同观点交流]

 ·  ·