我买了这个8700G只是为了做实验——由于亚马逊的配送失误,我最终得到了一块闲置的主板,手头有一块电源和硬盘,所以就买了一块8700G和64GB的6000MHz DDR5内存,知道集成显卡可以访问32GB的内存,这使得它成为迄今为止能够访问超过8GB内存的最便宜的基于GPU的LLM系统,而且差距相当大。
首先,在8700G的780M上让这个系统工作起来很麻烦。我不得不在这里找到一个修改过的ollama库:https://github.com/likelovewant/ollama-for-amd/wiki,这需要一些认真的谷歌搜索技巧才能找到,它使集成显卡在Windows中工作,而不限制它可以使用的内存量到默认分配(大约512MB)。我首先尝试了LM Studio(不支持),尝试在WSL中运行(导航AMD RoCm不是为胆小的人准备的),经过大约6个小时的努力,找到了上面链接的修改过的应用程序,我让它和llama3.1一起工作了。
我有一些与CPU和其他GPU的比较。最近我尝试了几个LMStudio的版本,它们启用了OpenCL GPU卸载,但现在不再工作了(只是说没有找到GPU),在我的llama3测试中,速度比CPU还慢。所以下面是我使用相同的提示在以下系统上使用LLama3.1 7b和64k上下文长度的测试结果:
780M集成显卡 - 11.95 tok/s
8700G CPU(8核/16线程zen4) - 9.43 tok/s
RTX 4090 24GB - 74.4 tok/s -
7950x3d CPU(16核/32线程3D vcache在一个芯片上) - 8.48 tok/s
我还尝试了最大128k上下文长度,它在4090上溢出了GPU内存并转到了共享内存,导致以下速度:
780M集成显卡 - 10.98 tok/s
8700G - 8.14 tok/s
7950x3d - 8.36 tok/s
RTX 4090 - 44.1 tok/s
我认为很酷的是,非量化的llama3.1 7b版本在最大上下文大小下可以完全适应780M。4090虽然性能大幅下降,但仍然非常快。运行更大上下文大小时,内存消耗大约为30GB,4090不得不溢出到共享系统内存,因此速度减慢。运行较小上下文大小时,内存消耗大约为18GB。当运行GPU时,GPU利用率固定在100%,在CPU上我发现超过16线程后没有加速,所以8700G显示100%利用率,而7950x3d显示50%。我没有尝试在x3d芯片上运行,但可能会在另一个时间尝试。我想尝试一些70b模型的量化版本,但那些需要较小的上下文大小才能运行,我确定。
讨论总结
本次讨论主要聚焦于使用Ryzen 8700G处理器进行LLama3.1模型的测试和性能分析。参与者分享了在不同硬件配置下的测试结果,特别是集成显卡(IGP)的表现,以及与其他高端CPU和GPU的对比。讨论中还涉及了软件支持、内存管理、量化模型测试等话题,以及对未来技术发展的期待。
主要观点
- 👍 Ryzen 8700G在LLama3.1模型上的表现
- 支持理由:通过特定的软件修改,成功在780M IGP上运行LLama3.1,性能表现优于某些CPU配置。
- 反对声音:AMD在软件支持方面存在不足,尤其是在加速LLM在iGPU上的应用。
- 🔥 集成显卡(IGP)的性能优势
- 正方观点:780M IGP在处理LLama3.1时表现出色,尤其是在高上下文长度下。
- 反方观点:大上下文长度测试中,GPU内存溢出导致性能下降。
- 💡 未来量化模型测试的期待
- 解释:作者计划尝试量化版本的LLama3.1,以进一步优化性能。
金句与有趣评论
- “😂 Have you tried running LLM via Vulkan using jan.ai or GPT4All”
- 亮点:探索在iGPU上更有效地运行LLM的新方法。
- “🤔 I’ll give cortex a try, looks interesting, if for no other reason than to see what directML can do.”
- 亮点:对新技术的好奇和尝试精神。
- “👀 Similar experience on older igpus too - they tend to be about as fast as the cpu they’re bundled with.”
- 亮点:对集成显卡性能的客观评价。
情感分析
讨论的总体情感倾向较为积极,参与者对Ryzen 8700G的性能表现表示赞赏,并对未来技术发展持乐观态度。主要分歧点在于软件支持和内存管理,部分用户对AMD在这方面的表现表示不满。
趋势与预测
- 新兴话题:量化模型测试和内存超频技术可能引发后续讨论。
- 潜在影响:Ryzen 8700G在LLM推理中的应用可能推动集成显卡技术的发展,对相关领域或社会产生积极影响。
感谢您的耐心阅读!来选个表情,或者留个评论吧!