原贴链接

我将123B Mistral-Large-Instruct-2407量化至35GB,在5项零样本推理任务中平均准确率仅下降4%!!!

模型位数模型大小Wiki2 PPLC4 PPL平均准确率
Mistral-Large-Instruct-2407FP16228.5 GB2.745.9277.76
Mistral-Large-Instruct-2407W2g6435.5 GB5.587.7473.54
  • PPL在2048上下文长度下测量。
  • 平均准确率表示在5项零样本推理任务(WinoGrande、PIQA、HellaSwag、Arc-Easy、Arc-Challenge)中的平均准确率。

我使用的量化算法是新的SoTA EfficientQAT:

量化后的模型已上传至HuggingFace:

  • W2g64 Mistral-Large-Instruct-2407:https://huggingface.co/ChenMnZ/Mistral-Large-Instruct-2407-EfficientQAT-w2g64-GPTQ

详细的量化设置:

  • 位数:INT2
  • 组大小:64

我通过GPTQ v2格式打包量化模型。欢迎任何人将其转换为exllama v2或llama.cpp格式。

讨论总结

本次讨论主要聚焦于将123B Mistral-Large-Instruct-2407模型通过EfficientQAT算法量化至35GB,仅导致4%的平均准确率下降。讨论中涵盖了量化技术的具体实现、模型性能的评估、以及对不同格式(如GGUF和EXL2)转换的需求。参与者对量化后的模型表现表示关注,并探讨了其在不同应用场景下的实用性。此外,讨论还涉及了量化模型的硬件需求和未来可能的技术发展方向。

主要观点

  1. 👍 量化模型成功减少大小,性能损失小

    • 支持理由:使用EfficientQAT算法,模型从228.5 GB压缩到35.5 GB,仅损失4%的平均准确率。
    • 反对声音:有评论指出准确率下降应为5.4%而非4%,引发进一步讨论。
  2. 🔥 量化模型已上传至HuggingFace

    • 正方观点:量化模型可供下载和使用,方便社区成员测试和应用。
    • 反方观点:有用户反馈在尝试运行GPTQ模型时遇到了一些问题,特别是在使用exllama v2和vLLM时。
  3. 💡 寻求帮助将GPTQ模型转换为GGUF或EXL2格式

    • 解释:作者请求社区帮助,希望有人能提供转换指导,以便模型能在更多平台上使用。
  4. 👀 量化技术在不同比特大小下的性能与成本比较

    • 解释:评论者提出需要对4位和8位量化进行性能与成本的比较分析,以评估在不同硬件配置下的实用性。
  5. 🚀 量化模型的硬件需求和兼容性问题

    • 解释:讨论中涉及了量化模型所需的VRAM大小,以及是否能进一步降低模型大小,同时关注模型的兼容性问题。

金句与有趣评论

  1. “😂 Good shit” - 评论者对量化方法表示赞赏。

    • 亮点:简洁地表达了作者对技术实现的正面评价。
  2. “🤔 Does anyone know where the instruction for converting GPTQ to GGUF, I would love to try it.” - 评论者寻求转换格式的指导。

    • 亮点:反映了社区成员对技术细节的积极探索和学习态度。
  3. “👀 Since it’s int2, is there a chance this can work with npu.” - 评论者探讨量化模型在NPU上的潜在应用。

    • 亮点:提出了一个创新的应用场景,展示了技术讨论的深度和广度。

情感分析

讨论的总体情感倾向积极,多数参与者对量化技术的实现和应用表示赞赏和支持。主要分歧点在于量化后的模型性能和兼容性问题,部分评论者对准确率下降和格式转换表示担忧。这些分歧可能源于对技术细节的理解差异和对实际应用效果的期待。

趋势与预测

  • 新兴话题:量化技术在不同比特大小下的性能与成本比较,以及在NPU等新硬件平台上的应用。
  • 潜在影响:量化技术的进一步优化和普及,可能会推动模型在更多设备上的应用,特别是在资源受限的环境中。