我将123B Mistral-Large-Instruct-2407量化至35GB,在5项零样本推理任务中平均准确率仅下降4%!!!
模型 | 位数 | 模型大小 | Wiki2 PPL | C4 PPL | 平均准确率 |
---|---|---|---|---|---|
Mistral-Large-Instruct-2407 | FP16 | 228.5 GB | 2.74 | 5.92 | 77.76 |
Mistral-Large-Instruct-2407 | W2g64 | 35.5 GB | 5.58 | 7.74 | 73.54 |
- PPL在2048上下文长度下测量。
- 平均准确率表示在5项零样本推理任务(WinoGrande、PIQA、HellaSwag、Arc-Easy、Arc-Challenge)中的平均准确率。
我使用的量化算法是新的SoTA EfficientQAT:
- 论文:https://arxiv.org/abs/2407.11062
- 代码:https://github.com/OpenGVLab/EfficientQAT(如果对您有帮助,请给我一个星标:))
量化后的模型已上传至HuggingFace:
- W2g64 Mistral-Large-Instruct-2407:https://huggingface.co/ChenMnZ/Mistral-Large-Instruct-2407-EfficientQAT-w2g64-GPTQ
详细的量化设置:
- 位数:INT2
- 组大小:64
我通过GPTQ v2格式打包量化模型。欢迎任何人将其转换为exllama v2或llama.cpp格式。
讨论总结
本次讨论主要聚焦于将123B Mistral-Large-Instruct-2407模型通过EfficientQAT算法量化至35GB,仅导致4%的平均准确率下降。讨论中涵盖了量化技术的具体实现、模型性能的评估、以及对不同格式(如GGUF和EXL2)转换的需求。参与者对量化后的模型表现表示关注,并探讨了其在不同应用场景下的实用性。此外,讨论还涉及了量化模型的硬件需求和未来可能的技术发展方向。
主要观点
👍 量化模型成功减少大小,性能损失小
- 支持理由:使用EfficientQAT算法,模型从228.5 GB压缩到35.5 GB,仅损失4%的平均准确率。
- 反对声音:有评论指出准确率下降应为5.4%而非4%,引发进一步讨论。
🔥 量化模型已上传至HuggingFace
- 正方观点:量化模型可供下载和使用,方便社区成员测试和应用。
- 反方观点:有用户反馈在尝试运行GPTQ模型时遇到了一些问题,特别是在使用exllama v2和vLLM时。
💡 寻求帮助将GPTQ模型转换为GGUF或EXL2格式
- 解释:作者请求社区帮助,希望有人能提供转换指导,以便模型能在更多平台上使用。
👀 量化技术在不同比特大小下的性能与成本比较
- 解释:评论者提出需要对4位和8位量化进行性能与成本的比较分析,以评估在不同硬件配置下的实用性。
🚀 量化模型的硬件需求和兼容性问题
- 解释:讨论中涉及了量化模型所需的VRAM大小,以及是否能进一步降低模型大小,同时关注模型的兼容性问题。
金句与有趣评论
“😂 Good shit” - 评论者对量化方法表示赞赏。
- 亮点:简洁地表达了作者对技术实现的正面评价。
“🤔 Does anyone know where the instruction for converting GPTQ to GGUF, I would love to try it.” - 评论者寻求转换格式的指导。
- 亮点:反映了社区成员对技术细节的积极探索和学习态度。
“👀 Since it’s int2, is there a chance this can work with npu.” - 评论者探讨量化模型在NPU上的潜在应用。
- 亮点:提出了一个创新的应用场景,展示了技术讨论的深度和广度。
情感分析
讨论的总体情感倾向积极,多数参与者对量化技术的实现和应用表示赞赏和支持。主要分歧点在于量化后的模型性能和兼容性问题,部分评论者对准确率下降和格式转换表示担忧。这些分歧可能源于对技术细节的理解差异和对实际应用效果的期待。
趋势与预测
- 新兴话题:量化技术在不同比特大小下的性能与成本比较,以及在NPU等新硬件平台上的应用。
- 潜在影响:量化技术的进一步优化和普及,可能会推动模型在更多设备上的应用,特别是在资源受限的环境中。
感谢您的耐心阅读!来选个表情,或者留个评论吧!