最近llama.cpp PR增加了对Q_4_0_4_8量化的支持,使用ARM优化的内核。这东西很快!请参见AndreasKunar在测试骁龙芯片方面所做的出色工作(https://github.com/ggerganov/llama.cpp/discussions/8273)。
在配备骁龙X Plus 10核芯片的Surface Pro 11上,运行Llama 3.1 8B的CPU推理,我得到以下结果:
llama_print_timings: 提示评估时间 = 895.37毫秒 / 126个令牌(每个令牌7.11毫秒,每秒140.72个令牌)
llama_print_timings: 评估时间 = 90360.33毫秒 / 1391次运行(每个令牌64.96毫秒,每秒15.39个令牌)
运行llama.cpp
使用官方Github仓库中的-win-llvm-arm64.zip版本。这些比MSVC ARM64构建更快。
命令提示符选项:-t 10以使用所有十个核心。X Elite用户可以使用-t 12。
Windows电源设置
在Windows设置 > 系统 > 电源与电池 > 电源模式中,选择最佳性能。机器会变得非常热,所以准备好额外的风扇以保持冷却。
如何重新量化现有的GGUF模型
要重新量化到Q_4_0_4_8,请使用以下命令行:
llama-quantize.exe --allow-requantize <旧Q4 gguf> <新Q4_0_4_8 gguf> Q4_0_4_8
苹果硅比较
作为比较,这些数字接近MacBook M2和M3的水平,因此您在Windows机器上获得了苹果硅的性能和电池寿命。愿我们生活在有趣的时代…
讨论总结
本次讨论主要围绕Snapdragon X CPU在量化技术Q_4_0_4_8下的推理速度展开,涉及性能优化、硬件对比、内存限制等多个方面。大部分评论者对Snapdragon X CPU的性能表示赞赏,认为其在某些方面接近Apple Silicon的性能,尤其是在Surface Pro 11上的表现。同时,也有评论者提出了对更大模型性能的期待,以及对内存限制和量化方法改进的关注。讨论中还涉及了价格效率、兼容性问题,以及社区对不同科技公司的批评态度。总体氛围积极,但也存在一些争议和不满。
主要观点
- 👍 Snapdragon X CPU在量化技术下的推理速度快
- 支持理由:在Surface Pro 11上的测试显示,每秒处理15.39个token,接近Apple Silicon性能。
- 反对声音:有评论者认为8B模型的速度对于现代设备来说已经很快,但实际应用中用户更关心更大模型的性能。
- 🔥 内存限制可能影响更大模型的运行
- 正方观点:当前笔记本电脑的内存限制可能影响更大模型的运行。
- 反方观点:量化方法的改进可能使得在有限内存下运行更大模型成为可能。
- 💡 选择最佳性能的电源模式可以提高性能
- 通过调整Windows电源设置至最佳性能模式,可以进一步提升性能,但需注意散热。
- 🚀 使用特定的命令行选项和工具可以优化模型运行
- 使用-win-llvm-arm64.zip版本比MSVC ARM64构建更快,通过特定命令行可以重新量化GGUF模型至Q_4_0_4_8。
- 🤔 Snapdragon X的性能接近Apple Silicon,但在某些指标上仍不及M2 Max
- Snapdragon X主要针对低端Mac市场,而不是高端型号。
金句与有趣评论
- “😂 Ill_Yam_9994:如果它能在30B或70B级别的模型上运行速度接近Apple Silicon Mac,那么这才是真正有趣的。”
- 亮点:强调了对更大模型性能的期待。
- “🤔 brown2green:With more than twice the memory bandwidth and half the model size I’d expect at least 4 times the performance.”
- 亮点:表达了对性能提升不显著的失望。
- “👀 Everlier:A relief - my existing laptop is not obsolete yet, it can run LLMs for some more time.”
- 亮点:体现了新技术对旧设备的兼容性和延长使用寿命的好处。
情感分析
讨论的总体情感倾向积极,大部分评论者对Snapdragon X CPU的性能表示赞赏,认为其在某些方面接近Apple Silicon的性能。然而,也存在一些争议和不满,主要集中在性能提升不显著、内存限制和价格效率等方面。主要分歧点在于对更大模型性能的期待和实际应用中的性能表现。
趋势与预测
- 新兴话题:可能引发后续讨论的新观点包括更大模型的性能优化、内存限制的突破以及价格效率的提升。
- 潜在影响:Snapdragon X CPU的性能提升可能对相关领域或社会产生积极影响,尤其是在本地运行大型语言模型(LLMs)方面。
感谢您的耐心阅读!来选个表情,或者留个评论吧!