原贴链接

TLDR: 在 LM Studio 中使用 Vulkan 和相同的提示词,Z1 extreme 比 8700G 快约 40%,llama3.1 q4_km 16k 上下文大小。

在尝试了 8700G 并取得了不错的成果后(详见这里),并创建了一个异步语音激活的 AI 助手,我决定通过购买一台 ROG Ally X 来尝试获得一个真正便携的版本,它配备了 Z1 extreme 处理器。它拥有相同的 12CU rdna 3 GPU,但配备了更快的 7500MHz lpddr5 内存(相比之下,我的 8700G 是 6200MHz),并且有 24GB 的内存,这意味着它可以处理 llama3.1 7B 量化的变体和类似模型。在 LM Studio 中启用 Vulkan 进行测试显示,它在 14 tok/s 的速度下比 8700G 快 40%(8700G 为 10 tok/s),运行 llama3.1 7B q4km 16k 上下文大小(CPU 在 7950x3d 上约为 8-9 tok/s)。在这种设置下,它使用了大约 9GB 的内存,因此有可能尝试 q8 版本(我还没有在它上面尝试过)和更大的上下文大小,尽管 llama3.1 在超过 16k 时似乎表现不佳。

这里有一个很大的注意事项,即 8700G 在使用 rocm 和 ollama 时可以达到 16-17tok/s,而我到目前为止还无法在 Z1 extreme 上运行它,因为它有不同的 gfx ID(8700G 和 780M 的笔记本版本是 GFX1103,但使用为 780M 配置的 Ollama 在 Z1 上无法运行)。因此,8700G 仍然更快,但如果我能让 rocm 在 Z1 上运行并显示出类似的 40% 加速,我们可能会看到在手持设备上超过 20tok/s 的速度,电池续航时间为 4 小时,这相当不错,并且会使其速度翻倍(我在 ollama 中使用 7950x3d CPU 时约为 11tok/s)。

讨论总结

讨论主要集中在Z1 Extreme处理器与8700G处理器在大型语言模型(LLM)推理性能上的对比。评论者们详细探讨了Z1 Extreme在LLM推理中比8700G快约40%的原因,主要归功于LPDDR5X内存和CU(计算单元)数量的增加。此外,讨论还涉及未来APU的发展潜力、内存带宽对推理性能的影响,以及在Linux系统下通过ROCm和llama.cpp进行性能优化的可能性。评论者们对未来硬件升级和市场趋势表示期待,并分享了各自在Ollama设置和NPU使用上的经验与疑问。

主要观点

  1. 👍 Z1 Extreme在LLM推理中比8700G快约40%
    • 支持理由:LPDDR5X内存和CU数量的增加显著提升了性能。
    • 反对声音:无明显反对声音,但有评论提到8700G在某些设置下仍具有优势。
  2. 🔥 未来APU的发展将进一步提升性能
    • 正方观点:评论者普遍认为未来APU将支持更高频率的LPDDR5X,进一步提升性能。
    • 反方观点:无明显反对声音,但有评论提到实际性能提升还需实际测试验证。
  3. 💡 内存带宽对推理性能有重要影响
    • 解释:评论者指出,当前架构下推理性能受限于内存带宽,提高带宽能显著提升性能。
  4. 💡 Linux系统下的性能优化
    • 解释:通过使用Linux内核6.9+和ROCm6.2,APU可以将系统内存的一半作为VRAM使用,提高内存速度并释放CPU核心。
  5. 💡 Ollama设置与NPU使用
    • 解释:评论者讨论了如何在8700G上设置Ollama以使用其780M显卡,并询问是否尝试在NPU上运行模型以进一步优化性能。

金句与有趣评论

  1. “😂 This is a good omen. It means LPDDR5X and a bigger CU count helps a ton, and future larger APUs will be even better.”
    • 亮点:评论者对未来APU的发展充满期待,认为LPDDR5X和CU数量的增加将带来显著性能提升。
  2. “🤔 With Linux kernel 6.9+ and rocm 6.2 the APU is able to address up to half of system memory as VRAM regardless of bios setting.”
    • 亮点:评论者分享了在Linux系统下通过ROCm进行内存优化的经验,展示了技术细节。
  3. “👀 Have you tried running on the NPU yet?”
    • 亮点:评论者提出了一个具体的技术问题,关注模型的优化和性能提升。

情感分析

讨论的总体情感倾向为积极,评论者们对Z1 Extreme和8700G的性能对比表现出浓厚的兴趣,并对未来硬件升级和市场趋势表示期待。主要分歧点在于不同设置下的性能表现,以及如何进一步优化性能。可能的原因包括硬件配置的差异、软件设置的不同以及未来技术发展的不确定性。

趋势与预测

  • 新兴话题:未来APU的发展、NPU的使用以及Linux系统下的性能优化。
  • 潜在影响:随着硬件技术的不断进步,LLM推理性能将进一步提升,推动更多应用场景的发展。

详细内容:

《关于 Z1 extreme 与 8700G 在 LLM 推理中的性能对比讨论》

在 Reddit 上,有一个关于“Z1 extreme(rog allyX 版本)与 8700G 在 LLM 推理中的表现”的热门讨论引起了大家的关注。该帖子获得了众多的点赞和评论。

原帖作者分享道,使用相同的提示在 LM Studio 中通过 Vulkan 测试,Z1 extreme 在 llama3.1 q4_km 16k 上下文大小的情况下,比 8700G 快约 40%。作者在成功体验 8700G 之后,购入了搭载 z1 extreme 处理器的 ROG Ally X。Z1 extreme 拥有相同的 12CU rdna 3 GPU,但配备了更快的 7500mhz lpddr5 内存(而 8700G 为 6200mhz),且内存容量达 24GB,能够处理 llama3.1 7b 量化变体等。不过 8700G 使用 rocm 和 ollama 时能达到 16 - 17tok/s,而目前作者无法在 z1 extreme 上实现这一操作。

讨论焦点与观点众多。有人认为这是一个好兆头,意味着 LPDDR5X 和更大的 CU 数量帮助很大,未来更大的 APU 会更好。还有人指出,在当前架构下,推理受内存带宽限制,算术密度低。也有人希望能有配备四通道和 256GB 最大内存的 Strix Halo。有人分享在特定条件下,自己的 5750ge 性能得到提升。有人表示 rocm 在 8700g 上运行良好,但 z1 extreme 不行。有人建议尝试特定的设置参数。

此次讨论展现了大家对于这两款处理器在 LLM 推理性能方面的深入探讨和期待,也为相关技术的发展提供了有价值的思路。