模型与技术 性能对比

DeepSeek-V3.1官方实时评测分数与本地测试结果不匹配

[原帖提出DeepSeek - V3.1官方Livebench分数与本地测试结果不匹配,评论者从官方设置、数据公开情况、技术差异等方面进行讨论,整体氛围较理性平和]

 ·  · 
硬件与部署 性能对比

MacBook Air M4/32gb性能测试数据

[楼主分享M4版MacBook Air的基准测试结果,部分人对性能表示肯定,其他人提出有关测试模型、配置、补充测试等各种疑问,整体氛围积极交流探讨]

 ·  · 
模型与技术 性能对比

Deepseek V3 0324被评为最佳非推理模型

[围绕Deepseek V3 0324成为最佳非推理模型展开讨论,涉及模型比较、基准测试、Llama模型现状等多方面内容,有赞同也有质疑,氛围较理性]

 ·  · 
模型与技术 性能对比

谷歌称Gemini 2.5超越其他思维模型

[围绕Google声称Gemini 2.5超越其他思维模型展开讨论,有对其优势的肯定也有诸多质疑,整体氛围充满争议]

 ·  · 
模型与技术 性能对比

深擎V3(重大改进)与Gemini 2.5 Pro(SOTA)长文本测试

[该讨论围绕New DeepSeek V3和Gemini 2.5 Pro长情境测试展开,涉及模型准确率、测试基准、模型价值等多方面观点,整体氛围理性且多元]

 ·  · 
模型与技术 性能对比

Deepseek V3 0324在OpenHands下获38.8% SWE - Bench验证

[围绕Deepseek V3 0324在SWE - Bench中获得38.8%这一事件展开讨论,涉及模型分数对比、不同模型组合的看法、模型性能评估、来源提供等,讨论氛围较理性平和]

 ·  · 
模型与技术 性能对比

DeepSeek V3.1一次性网站

[围绕One shot website (DeepSeek V3.1)展开讨论,涉及与Claude 3.7对比、网站使用的技术、对工作的影响等多方面内容,氛围较为积极活跃]

 ·  · 
模型与技术 性能对比

vLLM与SGLang在2块英伟达GPU上的性能对比:SGLang借助数据并行性完胜

[原帖比较vLLM和SGLang在两块英伟达GPU上的性能,评论从两者特性、不同并行方式、测试条件、特定功能支持等多方面进行讨论,整体氛围理性且充满技术探讨。]

 ·  · 
模型与技术 性能对比

llama.cpp量化导致质量下降的广泛基准测试

[原帖是关于RigoChat 2论文中llama.cpp量化对质量退化影响的研究,评论者们从量化性能、模型可用性、评判标准等方面展开讨论,有不同的观点碰撞,整体氛围较理性]

 ·  · 
模型与技术 性能对比

厌倦使用pygame/three.js进行评估

[原帖厌倦用pygame/three.js评估LLMs,提议用其他方式评估,评论者从多个角度进行讨论,有理解也有质疑,总体氛围较理性]

 ·  ·