模型与技术 性能对比

开源模型小到可在单张3090显卡运行,多数基准测试表现远超数月前超专有闭源顶尖模型

[原帖提及单张3090运行的开源模型在基准测试优于闭源模型,评论围绕开源模型展开,包括对其能否真的优于Claude的怀疑、性能评估的看法以及存在的诸如上下文窗口等问题]

 ·  · 
模型与技术 性能对比

Phi - 4在LMSYS竞技场上取得1210 ELO分数

[围绕Phi - 4在LMSYS竞技场1210 ELO的分数展开讨论,涉及模型功能、性能、限制、相关概念的趣味性以及比赛公平性等话题]

 ·  · 
模型与技术 性能对比

DeepSeek - R1在逻辑推理基准测试中碾压其他模型

[围绕DeepSeek - R1在逻辑推理基准测试中的表现展开讨论,涉及模型对比、标题准确性、测试相关话题等,存在不同观点且氛围理性]

 ·  · 
模型与技术 性能对比

QwQ 32b性能优于R1 32b - 附测试内容

[原帖对比QwQ 32b和R1 32b得出QwQ更好的结论,评论主要围绕这一比较展开,涉及模型性能不稳定、量化问题等,整体氛围倾向于探讨影响比较结果的各种因素]

 ·  · 
模型与技术 性能对比

最接近Claude 3.5 Sonnet的模型

[原帖寻求与Claude 3.5 Sonnet接近的开放模型,评论围绕不同模型推荐、与Claude的比较、模型能力、人格等展开,整体氛围理性讨论为主]

 ·  · 
模型与技术 性能对比

我开始认为AI基准测试毫无用处

[原帖认为AI基准测试无用,众多评论者围绕这一观点展开讨论,有支持也有反对,还涉及到模型性能评估、不同模型对比、基准测试存在的问题等多方面内容,整体讨论氛围热烈且观点多元。]

 ·  · 
模型与技术 性能对比

直观解析大语言模型基准测试的实际测量内容

[原帖介绍LLM基准相关内容,评论者主要表达感谢、提出疑问、表达怀疑或分享看法,整体讨论热度较低。]

 ·  · 
模型与技术 性能对比

用更强大的大语言模型追求类人表达可能是错路

[原帖认为使用更强大的LLMs来实现类人语音可能是错误方向,建议用旧模型重写现代LLMs输出,评论者有赞同、反对、补充等不同观点,总体氛围理性讨论]

 ·  · 
模型与技术 性能对比

DeepSeek - R1(预览版)在LiveCodeBench上的基准测试

[围绕DeepSeek - R1预览版在LiveCodeBench上的基准测试展开讨论,包括模型性能、版本、准确性等多方面内容,氛围积极且充满好奇]

 ·  · 
模型与技术 性能对比

新推理模型为何通不过‘苹果’测试基准?

[原帖探讨不同LLM的“苹果测试”结果,评论围绕模型能否通过测试、失败原因、测试指令调整、模型能力及相关概念等展开,整体氛围较理性探索]

 ·  ·