原贴链接

大家好,我又回来做另一个比较了。这次是关于MMLU的。不幸的是,为了节省时间,我只测试了4个类别:计算机安全、形式逻辑、逻辑谬误和哲学。和之前一样,所有量化都使用exllamav2 0.2.2进行,唯一的例外是gemma2 27B,其中大多数量化(除了5.5bpw和2.5bpw)是从HuggingFace下载的。每个分数都是三次运行的平均值。MMLU就像HumanEval一样,exllamav2内置了测试工具,使用起来很方便。享受这些数据吧!如果有人需要用于图表等,这里是谷歌表格的链接:https://docs.google.com/spreadsheets/d/1hbmysz1M8559i1Y_w53bWnccTQOstguy9R5U4QrNQss/edit?usp=sharing。编辑:我(希望在不久的)未来的计划:1.添加各种Mistral AI模型缺失的HumanEval结果;2.对EXL2缓存量化影响(FP16与Q8、Q6和Q4)进行基准测试。

讨论总结

帖子分享了不同本地语言模型(LLMs)在特定条件下的MMLU基准测试结果,以表格形式展示。评论者们表达了对原帖的感谢,随后围绕模型展开了多方面的讨论,包括Qwen coder模型在量化下的性能表现、从Ollama切换到exl2的原因、对测试基准的看法、模型之间的性能比较以及一些关于数据可视化等相关内容,整体氛围比较积极,大家都在积极探讨与模型相关的各种现象和问题。

主要观点

  1. 👍 感谢原帖作者整理和分享数据
    • 支持理由:原帖为大家提供了不同模型量化后的性能数据,对相关领域的研究、学习有帮助。
    • 反对声音:无。
  2. 🔥 Qwen coder模型在极端量化下较能抵抗性能损失
    • 正方观点:从数据中观察到Qwen coder模型在不同量化下的性能表现,如7B及以下、32B和14B等情况。
    • 反方观点:无。
  3. 💡 打算从Ollama切换到exl2
    • 正方观点:MMLU结果与HumanEval中的部分结果相似,且Ollama存在模型文件为哈希值、文档糟糕、配置污染系统环境等缺点。
    • 反方观点:无。
  4. 💡 当前的基准测试需要更换
    • 正方观点:认为现有的基准测试存在不足,如Livebench不进行量化测试。
    • 反方观点:无。
  5. 💡 对Qwen 14B和Qwen 32B性能接近感到惊讶
    • 解释:在对比二者性能数据时发现差距很小,对这种情况表示意外。

金句与有趣评论

  1. “😂 TyraVex: Dude got a datacenter in his basement”
    • 亮点:以一种诙谐幽默的方式表达原帖作者测试工作量大。
  2. “🤔 What’s interesting is the Qwen coder models seem to be more resistant to performance loss at extreme quantization.”
    • 亮点:指出Qwen coder模型在量化方面的特殊表现,引起大家对该模型的关注。
  3. “👀 I think it’s also interesting that Ministral overtakes Nemo at 3.5bpw and lower while being roughly half the size!”
    • 亮点:发现Mistral和Nemo在特定参数下的性能与规模差异,这是比较有趣的对比点。
  4. “😎 Think we need a different benchmark”
    • 亮点:直接提出对当前基准测试的看法,简洁明了。
  5. “🤓 It blows my mind how close Qwen 14B and qwen 32B are in performance.”
    • 亮点:生动地表达出对两个模型性能接近程度的惊讶之感。

情感分析

总体情感倾向是积极的,大部分评论者对原帖表示感谢,并且积极参与到关于模型的讨论中。主要分歧点较少,个别存在的如对基准测试的看法,但也未引起激烈争论。可能的原因是这是一个相对专业领域的讨论,大家更多是在分享自己的见解和发现,而不是进行辩论。

趋势与预测

  • 新兴话题:利用现有数据建立帕累托前沿以更好地分析模型性能,这个话题可能会引发后续关于模型性能分析方法的讨论。
  • 潜在影响:如果更多地关注到模型量化下的性能表现以及像帕累托前沿这样的分析方法,可能会影响到模型的选择策略,无论是在研究领域还是实际应用场景中,都有助于提高模型选择的准确性和效率。

详细内容:

标题:热门讨论:不同本地 LLMs 模型在 MMLU 基准测试中的量化表现

在 Reddit 上,一篇关于流行本地 LLMs 模型在 MMLU 基准测试中量化表现的帖子引发了热烈讨论。该帖由[作者]发布,内容详细介绍了此次测试的情况,包括仅针对计算机安全、形式逻辑、逻辑谬误和哲学这 4 个类别的测试,以及所使用的工具和数据获取方式。帖子还提供了谷歌表格的链接,方便有需要的人用于制作图表等。此帖获得了众多关注,点赞数和评论数众多。

讨论的焦点主要集中在不同模型的量化抗性表现以及可能的影响因素。有人指出,Qwen 的编码模型在极端量化下表现出较强的抗性,比如“Qwen2.5-Coder-32B-Instruct”在极端的 2.5bpw 量化下仍能保持较好表现。有人认为,这可能是由于代码领域本身具有确定性和可压缩性,也有人猜测是因为训练模型时使用了更多的代码,从而产生了额外的好处,使其更能抵抗量化。

例如,有用户分享道:“在我看来,编码模型在量化下能抵抗性能损失,是因为其领域——结构化代码——本质上是确定性和可压缩的。我猜测代码依赖于严格的语法和逻辑,而非模糊性或细微差别。似乎量化影响了自然语言理解所需的微妙梯度(打个比方),但对编码模型所依赖的刚性模式影响较小。”

同时,也有用户提出不同见解,认为也许是训练模型时强化了诸如分层逻辑和重复等有利于压缩的结构。

讨论中也存在一些共识,比如普遍认为通用的 LLMs 在量化下性能降级更明显。特别有见地的观点是,有人认为应该建立一个在给定量化后模型大小下的帕累托前沿,以确定最高的 MMLU 分数。

总的来说,这次关于本地 LLMs 模型在 MMLU 基准测试中的讨论,为我们深入理解模型的性能特点和优化方向提供了丰富的视角和有价值的思考。