对405B模型的EXL2量化进行了一些有限的测试(以便在GPU上运行)。非常感谢u/ReturningTarzan和ek826在让这个工作方面的帮助。
我知道PPL并不是一切,但我发现有趣的是,在125-150GB的模型大小范围内,原始的EXL2量化实际上击败了Meta的70B蒸馏,这是一个计算密集度更高的过程。
另外:
许多基准测试将70B与405B非常接近,但在我的下游任务中进行了有限的测试:长上下文问答、事实分析、记住并应用详细故事中的细节,405B要好得多。
老实说,我曾认为当前一代的大型语言模型在这些任务上无法在超过约10K的上下文长度之外发挥作用,包括GPT-4o和Claude Sonnet 3.5,无论实际的上下文长度声称如何。我尝试了各种分块和提示工程来从中获得有用的信息。Llama 3.1 70B也是如此(尽管比我的Llama 3 70B长上下文微调要好),并且不如闭源的大型语言模型。然而,405B在处理这类任务时表现出色,我认为它将完全取代Claude和4o。
接近128K上下文限制的性能非常好且一致。405B唯一遇到困难的情况是文本中有多个听起来相似的例子或情况,最终会导致混淆。如果这类情况的总数较少(< 10),405B仍然可以通过一些提示工程、自我反思和CoT来区分它们。相比之下,70B(或商业大型语言模型)无论如何都会混淆它们,或者在响应中简单地遗漏细节。
我觉得常见的基准测试结果并没有真正捕捉到这种性能(或者我没有看对),而405B在这方面确实表现出色。
编辑:更正:刚刚注意到我的Llama 70B 6位实际上是8位量化。6位的PPL是7.18(而8位是7.06)。带有模型大小的X轴的图表仍然是正确的。
讨论总结
本次讨论主要聚焦于Llama 3.1 405B EXL2量化模型的性能测试结果,特别是在GPU上的运行表现。参与者们讨论了405B模型在长上下文问答、事实分析等下游任务中的表现,并与70B模型进行了比较。普遍观点认为,尽管PPL不是衡量模型性能的唯一标准,但在特定模型大小范围内,EXL2量化实际上超过了Meta的70B模型。此外,405B模型在这些特定任务中表现出色,可能取代现有的商业LLMs。讨论中还涉及了量化级别对性能的影响、硬件需求以及模型架构的创新等话题。
主要观点
- 👍 405B模型在长上下文任务中表现优于70B模型
- 支持理由:在长上下文问答、事实分析等任务中,405B模型表现出色,尤其是在接近128K上下文限制时。
- 反对声音:无明显反对声音,但有讨论指出当前基准测试可能未能完全捕捉到405B模型的性能。
- 🔥 量化方法对模型性能有显著影响
- 正方观点:量化级别如Q8可能是最佳选择,对VRAM成本和进一步训练有不同影响。
- 反方观点:较小的量化级别如Q4可能在硬件资源受限时使用,但性能可能不如较大量化级别。
- 💡 405B模型可能在某些任务上完全取代现有的商业LLMs
- 解释:在长上下文任务和复杂任务处理中,405B模型表现优于其他模型,如GPT-4o和Claude Sonnet 3.5。
金句与有趣评论
- “😂 Is this 405B and 70B both quantized versions? How about 70B fp16 vs 405B quant?”
- 亮点:询问者对不同量化级别的比较感兴趣,反映了量化对模型性能的重要性。
- “🤔 I had thought current-gen LLMs were incapable of being useful beyond ~10K of context”
- 亮点:评论者对当前大型语言模型在长上下文任务中的实用性表示怀疑,反映了业界对这一问题的普遍关注。
- “👀 Q8 may be the sweet spot and CPUs (M3, etc) will be too slow on tok/sec.”
- 亮点:评论者提出了量化级别Q8可能是最佳选择的观点,并指出了CPU在处理速度上的局限性。
情感分析
讨论的总体情感倾向是积极的,大多数参与者对405B模型在长上下文任务中的表现表示赞赏。主要分歧点在于量化级别的选择和硬件需求,以及现有基准测试是否能充分捕捉到405B模型的性能。这些分歧可能源于对模型性能的不同期望和实际应用中的不同需求。
趋势与预测
- 新兴话题:量化级别的选择和硬件需求可能会成为后续讨论的热点。
- 潜在影响:405B模型在长上下文任务中的优异表现可能会推动相关领域的研究和应用,尤其是在需要处理复杂文本和长上下文的场景中。
感谢您的耐心阅读!来选个表情,或者留个评论吧!