原贴链接

大家好，我是一名人工智能爱好者，我打算构建一台专门用于人工智能推理（特别是用于小说和轻小说的机器翻译）的迷你PC。我最近发现了Aya - Expanse - 8B模型，它在英 - 法翻译中表现卓越。我的目标是构建一台能够快速且节能地进行推理的迷你PC，以加载从8B到27B（直至Gemma2 - 27B模型）的模型。我希望Aya - Expanse - 8B模型能达到每秒至少40 - 50个词元，这样我就能高效地进行轻小说或小说的机器翻译。我知道GPU上的RAM带宽和VRAM带宽是人工智能推理的关键因素。所以我正在为以下组件寻求最佳建议：1. 带有对人工智能推理有用的集成GPU（IGPU）或神经处理单元（NPU）的CPU。我对NPU了解不多，但我想知道它是否能让我高速地做一些事情。你们能给我讲讲NPU用于人工智能推理的利弊吗？2. 高带宽的RAM以支持大型人工智能模型。我听说过Smokeless - UMAF的GitHub项目，它允许将大量RAM以VRAM的形式分配给IGPU。这对我的配置来说是个好的解决方案吗？3. 其他可能影响人工智能推理性能的组件。我还在寻找散热良好的迷你PC，因为我计划长时间（连续4 - 8小时）运行我的系统。你们能推荐一些有高效散热系统的迷你PC吗？我很高兴能收到你们关于构建专门用于人工智能推理的迷你PC的答案和建议。感谢社区提供的建议和经验！编辑：也许我疯了，但你们认为在迷你PC上（当然要量化）以超过每秒25个词元的速度运行Aya - Expanse - 32B可能吗？

讨论总结

原帖作者是人工智能爱好者，想要构建用于AI推理（特别是小说机器翻译）的迷你PC，向社区寻求硬件组件的推荐并提出了一些相关疑问。评论者们给出了各种回应，包括硬件的比较（如M2 Max和M4的比较）、不同模型在翻译方面的表现、对特定设备运行速度的看法、推荐的硬件设备（如英伟达的显卡、HP Z2 minis）以及对原帖主目标合理性的评估等。

主要观点

👍 在选择用于大型语言模型推理的硬件时要考虑计算能力、内存大小和内存带宽
- 支持理由：评论者详细比较M2 Max和M4在这三个方面的表现，M2 Max在各方面优于M4并给出使用M2 Max的相关测试数据。
- 反对声音：无
🔥 AMD即将推出的APUs在2025年初性能较好
- 正方观点：作者表示如果可以等待，其性能会比其他迷你PC好。
- 反方观点：无
💡 原帖作者40 - 50个令牌/秒的目标很高
- 解释：评论者以自己4070超级显卡运行llama3.1 8b Q4KM达到40个令牌/秒为例来说明。
💡 Mistral模型用于法语生成存在不足
- 解释：评论者表示该模型生成法语会缺失很多适合法语的语调和语境。
💡 批量推理相比单批次推理速度有极大提升并改变经济性
- 解释：如3090设备下从单批次的50 tokens/秒提升到批量的2000 tokens/秒。

金句与有趣评论

“😂 There are 3 main factors to think about when picking hardware for LLM inference: 1. Compute 2. Memory size 3. Memory bandwidth.”
- 亮点：简洁地概括了选择硬件的关键因素。
“🤔 I don’t think so, and it would be hard to get working, but TBH it could be much better than the serial performance most people test on these APUs.”
- 亮点：对原帖中关于运行aya - expanse - 32b的疑问给出了理性的分析。
“👀 Mistral models are pretty bad for French generation; they miss a lot of tones and context that are proper for the French language.”
- 亮点：指出Mistral模型在法语生成方面的缺点。
“💡 Since my M2 Max is binned, I can see the full 38 GPU core M2 Max doing ~40 tokens/second for a quantized 8B model.”
- 亮点：给出了M2 Max在特定模型下的性能数据。
“😎 if you want something small and energy efficient and fast then have a look at the HP Z2 minis.”
- 亮点：针对原帖需求推荐了HP Z2 minis并概括其特点。

情感分析

总体情感倾向积极，大家都在积极为原帖作者提供建议和分享自己的经验。主要分歧点较少，只是在一些硬件性能和模型表现上存在不同观点，这是因为大家基于自己不同的使用经验和知识背景进行评论。

趋势与预测

新兴话题：AMD即将推出的Strix Halo APUs可能会引发后续关于其性能以及与其他硬件比较的讨论。
潜在影响：对构建用于AI推理的迷你PC领域，会让人们在硬件选择上有更多的考虑因素和新的选择方向。

详细内容：

标题：构建用于 aya-expanse-8b 推理的迷你 PC 引发的热烈讨论

在 Reddit 上，有一个关于构建专门用于人工智能推理的迷你 PC 的帖子引起了广泛关注，获得了众多点赞和大量评论。帖子的作者是一位人工智能爱好者，想要打造一台能高效、节能地进行推理的迷你 PC，用于小说和轻小说的机器翻译，特别是针对 aya-expanse-8B 模型，目标是达到每秒 40 - 50 个令牌的处理速度。

讨论的焦点主要集中在硬件配置的选择以及性能优化等方面。有人认为 M2 Max 是个不错的选择，在计算、内存大小和内存带宽等方面都优于 M4，比如[Mysterious_Finish543]表示“M2 Max 在这三个指标上都碾压 M4。计算方面，M4 Pro 在原始计算能力上就输给了 M2 Max，其 GPU 核心数约为 M2 Max 的一半，架构改进也无法弥补 18 个核心的差距。内存大小方面，M2 Max 最多可达 96GB 统一内存用于模型，是 M4 的三倍。内存带宽方面，M2 Max 为 400GB/s，而 M4 仅为 120GB/s，差距明显。” 还有人提到苹果的 ARM 芯片在能耗、内存带宽和推理支持方面表现出色，但缺点是必须使用 MacOS。

[Mysterious_Finish543]还分享了个人经历：“我日常使用配备 32GB 内存的 binned M2 Max（12 + 30）。以下是一些基准测试结果：在 Qwen-2.5-7B-Instruct-Q8_0 模型下，每秒生成 30 个令牌；在 Qwen-2.5-14B-Instruct-IQ4_XS 模型下，每秒生成 20.5 个令牌；在 Qwen-2.5-32B-Instruct-IQ4_XS 模型下，每秒生成 12 个令牌。在所有这些基准测试中，GPU 使用率为 100%，功耗（包括屏幕和我的 MacBook 上的其他组件）飙升至 80W，然后稳定在 60 - 70W。由于我的 M2 Max 经过了筛选，我可以看到完整的 38 个 GPU 核心的 M2 Max 对于量化的 8B 模型每秒能生成约 40 个令牌。也就是说，我觉得每秒约 30 个令牌对我来说已经足够了，以这样的速度，生成令牌的速度已经比我阅读的速度还快。”

也有人认为可以等待 AMD 即将在 2025 年初推出的 strix halo APUs，[Downtown-Case-1755]称其将超越其他迷你 PC。还有人推荐了 Nvidia 的 quadri p6000 或 3090ti 等显卡。

不过，也有人提出不同看法，[FullOf_Bad_Ideas]认为只要使用慢速的 RAM，IGPU 和 NPU 就无关紧要，而且应注重批量推理，这能大大提高翻译小说的速度。

此外，[loadsamuny]推荐了价格较高但性能不错的 HP Z2 minis，并提供了相关链接：https://www.hp.com/gb-en/shop/product.aspx?id=8T1Q1EA&opt=ABU&sel=DTP&source=google&channel=cpc&adcampaign=OLS-UK-PS-Wks-Goo-Pmax&addisttype=xpla&kw=&adid=&infinity=ict2~~net~~gaw~~cmp~~OLS-UK-PS-Wks-Goo-Pmax~~agarkw~~mt~~&gad_source=1&gclid=EAIaIQobChMIrcXbh5nhiQMVv5pQBh36DzuiEAQYASABEgJ10_D_BwE&gclsrc=aw.ds 。

在这场讨论中，大家对于如何构建满足需求的迷你 PC 各抒己见，既有对不同硬件配置的深入分析，也有个人实际使用的经验分享。这为想要构建类似设备的人提供了丰富的参考和思考。但究竟哪种方案才是最优解，还需要根据个人的具体需求和预算来决定。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#