原贴链接

TLDR: 在 LM Studio 中使用 Vulkan 和相同的提示词，Z1 extreme 比 8700G 快约 40%，llama3.1 q4_km 16k 上下文大小。

在尝试了 8700G 并取得了不错的成果后（详见这里），并创建了一个异步语音激活的 AI 助手，我决定通过购买一台 ROG Ally X 来尝试获得一个真正便携的版本，它配备了 Z1 extreme 处理器。它拥有相同的 12CU rdna 3 GPU，但配备了更快的 7500MHz lpddr5 内存（相比之下，我的 8700G 是 6200MHz），并且有 24GB 的内存，这意味着它可以处理 llama3.1 7B 量化的变体和类似模型。在 LM Studio 中启用 Vulkan 进行测试显示，它在 14 tok/s 的速度下比 8700G 快 40%（8700G 为 10 tok/s），运行 llama3.1 7B q4km 16k 上下文大小（CPU 在 7950x3d 上约为 8-9 tok/s）。在这种设置下，它使用了大约 9GB 的内存，因此有可能尝试 q8 版本（我还没有在它上面尝试过）和更大的上下文大小，尽管 llama3.1 在超过 16k 时似乎表现不佳。

这里有一个很大的注意事项，即 8700G 在使用 rocm 和 ollama 时可以达到 16-17tok/s，而我到目前为止还无法在 Z1 extreme 上运行它，因为它有不同的 gfx ID（8700G 和 780M 的笔记本版本是 GFX1103，但使用为 780M 配置的 Ollama 在 Z1 上无法运行）。因此，8700G 仍然更快，但如果我能让 rocm 在 Z1 上运行并显示出类似的 40% 加速，我们可能会看到在手持设备上超过 20tok/s 的速度，电池续航时间为 4 小时，这相当不错，并且会使其速度翻倍（我在 ollama 中使用 7950x3d CPU 时约为 11tok/s）。

讨论总结

讨论主要集中在Z1 Extreme处理器与8700G处理器在大型语言模型（LLM）推理性能上的对比。评论者们详细探讨了Z1 Extreme在LLM推理中比8700G快约40%的原因，主要归功于LPDDR5X内存和CU（计算单元）数量的增加。此外，讨论还涉及未来APU的发展潜力、内存带宽对推理性能的影响，以及在Linux系统下通过ROCm和llama.cpp进行性能优化的可能性。评论者们对未来硬件升级和市场趋势表示期待，并分享了各自在Ollama设置和NPU使用上的经验与疑问。

主要观点

👍 Z1 Extreme在LLM推理中比8700G快约40%
- 支持理由：LPDDR5X内存和CU数量的增加显著提升了性能。
- 反对声音：无明显反对声音，但有评论提到8700G在某些设置下仍具有优势。
🔥 未来APU的发展将进一步提升性能
- 正方观点：评论者普遍认为未来APU将支持更高频率的LPDDR5X，进一步提升性能。
- 反方观点：无明显反对声音，但有评论提到实际性能提升还需实际测试验证。
💡 内存带宽对推理性能有重要影响
- 解释：评论者指出，当前架构下推理性能受限于内存带宽，提高带宽能显著提升性能。
💡 Linux系统下的性能优化
- 解释：通过使用Linux内核6.9+和ROCm6.2，APU可以将系统内存的一半作为VRAM使用，提高内存速度并释放CPU核心。
💡 Ollama设置与NPU使用
- 解释：评论者讨论了如何在8700G上设置Ollama以使用其780M显卡，并询问是否尝试在NPU上运行模型以进一步优化性能。

金句与有趣评论

“😂 This is a good omen. It means LPDDR5X and a bigger CU count helps a ton, and future larger APUs will be even better.”
- 亮点：评论者对未来APU的发展充满期待，认为LPDDR5X和CU数量的增加将带来显著性能提升。
“🤔 With Linux kernel 6.9+ and rocm 6.2 the APU is able to address up to half of system memory as VRAM regardless of bios setting.”
- 亮点：评论者分享了在Linux系统下通过ROCm进行内存优化的经验，展示了技术细节。
“👀 Have you tried running on the NPU yet?”
- 亮点：评论者提出了一个具体的技术问题，关注模型的优化和性能提升。

情感分析

讨论的总体情感倾向为积极，评论者们对Z1 Extreme和8700G的性能对比表现出浓厚的兴趣，并对未来硬件升级和市场趋势表示期待。主要分歧点在于不同设置下的性能表现，以及如何进一步优化性能。可能的原因包括硬件配置的差异、软件设置的不同以及未来技术发展的不确定性。

趋势与预测

新兴话题：未来APU的发展、NPU的使用以及Linux系统下的性能优化。
潜在影响：随着硬件技术的不断进步，LLM推理性能将进一步提升，推动更多应用场景的发展。

详细内容：

《关于 Z1 extreme 与 8700G 在 LLM 推理中的性能对比讨论》

在 Reddit 上，有一个关于“Z1 extreme（rog allyX 版本）与 8700G 在 LLM 推理中的表现”的热门讨论引起了大家的关注。该帖子获得了众多的点赞和评论。

原帖作者分享道，使用相同的提示在 LM Studio 中通过 Vulkan 测试，Z1 extreme 在 llama3.1 q4_km 16k 上下文大小的情况下，比 8700G 快约 40%。作者在成功体验 8700G 之后，购入了搭载 z1 extreme 处理器的 ROG Ally X。Z1 extreme 拥有相同的 12CU rdna 3 GPU，但配备了更快的 7500mhz lpddr5 内存（而 8700G 为 6200mhz），且内存容量达 24GB，能够处理 llama3.1 7b 量化变体等。不过 8700G 使用 rocm 和 ollama 时能达到 16 - 17tok/s，而目前作者无法在 z1 extreme 上实现这一操作。

讨论焦点与观点众多。有人认为这是一个好兆头，意味着 LPDDR5X 和更大的 CU 数量帮助很大，未来更大的 APU 会更好。还有人指出，在当前架构下，推理受内存带宽限制，算术密度低。也有人希望能有配备四通道和 256GB 最大内存的 Strix Halo。有人分享在特定条件下，自己的 5750ge 性能得到提升。有人表示 rocm 在 8700g 上运行良好，但 z1 extreme 不行。有人建议尝试特定的设置参数。

此次讨论展现了大家对于这两款处理器在 LLM 推理性能方面的深入探讨和期待，也为相关技术的发展提供了有价值的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#