硬件与部署 性能对比

M4 Max以11个令牌/秒运行Qwen 72B Q4 MLX

[围绕M4 Max运行Qwen 72B Q4 MLX的情况展开多方面讨论,包括性能、功耗、温度、不同设备比较等,同时涉及本地LLM的用途等话题,讨论氛围积极且充满技术探讨]

 ·  · 
模型与技术 性能对比

DeepSeek R1 lite表现惊艳,远超Qwen 2.5 coder

[围绕deepseek R1 lite和qwen模型在编程竞赛中的表现、功能缺陷、设备性能、开源问题等多方面展开讨论,观点多样且存在争议,整体氛围理性客观]

 ·  · 
模型与技术 性能对比

量化对Aider基准测试的影响

原帖关于Qwen 2.5 32B在不同提供者/量化下的比较引发多种质疑,包括模型差异、测试合理性等方面,也有少量对原帖补充修正内容,整体氛围以质疑探讨为主。

 ·  · 
模型与技术 性能对比

深源宣布R1 lite,在部分基准测试中胜过o1预览版

[该讨论围绕Deepseek宣布R1 lite展开,涉及模型相关的多个话题如与o1对比、版本关系、性能测试等,同时包含对模型发展方向、付费情况的看法以及一些技术探讨和对命名等方面的不满。]

 ·  · 
模型与技术 性能对比

CrisperWhisper在开放ASR排行榜中位居第二

[CrisperWhisper在Open ASR Leaderboard排名第二引发讨论,主要为认可成果、提出技术期待、关注相关模型发展等,整体氛围积极且专注于语音识别技术相关话题]

 ·  · 
模型与技术 性能对比

评判竞技场排行榜:将大语言模型作为评估器进行基准测试

[关于Judge Arena Leaderboard中LLMs的ELO评分对比情况展开讨论,包括对结果合理性的质疑、模型版本、评判标准等方面的探讨,氛围较理性且充满探索性]

 ·  · 
模型与技术 性能对比

求Mistral - Large - 2411新模型基准测试

[原帖询问Mistral - Large - 2411的基准测试情况并与其他模型比较,评论包含对该模型的测试、评价、资源分享、计划测试等内容,整体氛围积极且充满探索性]

 ·  · 
模型与技术 性能对比

可靠的大语言模型编码任务排名榜

[关于LLMs编码任务排行榜信任度的讨论,涉及多种排行榜的评价、公正性争议、个人偏好、对现有排行榜的不信任以及LLMs在特定编码库中的性能等内容,整体氛围比较理性探讨]

 ·  · 
1. 模型与技术 性能对比

LLMs作为评估器的基准测试:Judge Arena

[关于Judge Arena项目中不同模型相关情况(如LLama的看好、Qwen的表现、初步结果的置信区间等)、平台特定功能(如专用微调、评判者)、数据发布、评级算法以及提醒功能等的讨论,整体氛围较为平和,各自表达不同关注点。]

 ·  · 
模型与技术 性能对比

Athene - V2为何无人问津?

[原帖对Athene - V2无人关注表示疑惑,评论从模型来源、性能、硬件适配、Qwen的关系等多方面探讨可能的原因,还有人索要更多模型信息]

 ·  ·