原贴链接

大家好,我是一名人工智能爱好者,我打算构建一台专门用于人工智能推理(特别是用于小说和轻小说的机器翻译)的迷你PC。我最近发现了Aya - Expanse - 8B模型,它在英 - 法翻译中表现卓越。我的目标是构建一台能够快速且节能地进行推理的迷你PC,以加载从8B到27B(直至Gemma2 - 27B模型)的模型。我希望Aya - Expanse - 8B模型能达到每秒至少40 - 50个词元,这样我就能高效地进行轻小说或小说的机器翻译。我知道GPU上的RAM带宽和VRAM带宽是人工智能推理的关键因素。所以我正在为以下组件寻求最佳建议:1. 带有对人工智能推理有用的集成GPU(IGPU)或神经处理单元(NPU)的CPU。我对NPU了解不多,但我想知道它是否能让我高速地做一些事情。你们能给我讲讲NPU用于人工智能推理的利弊吗?2. 高带宽的RAM以支持大型人工智能模型。我听说过Smokeless - UMAF的GitHub项目,它允许将大量RAM以VRAM的形式分配给IGPU。这对我的配置来说是个好的解决方案吗?3. 其他可能影响人工智能推理性能的组件。我还在寻找散热良好的迷你PC,因为我计划长时间(连续4 - 8小时)运行我的系统。你们能推荐一些有高效散热系统的迷你PC吗?我很高兴能收到你们关于构建专门用于人工智能推理的迷你PC的答案和建议。感谢社区提供的建议和经验!编辑:也许我疯了,但你们认为在迷你PC上(当然要量化)以超过每秒25个词元的速度运行Aya - Expanse - 32B可能吗?

讨论总结

原帖作者是人工智能爱好者,想要构建用于AI推理(特别是小说机器翻译)的迷你PC,向社区寻求硬件组件的推荐并提出了一些相关疑问。评论者们给出了各种回应,包括硬件的比较(如M2 Max和M4的比较)、不同模型在翻译方面的表现、对特定设备运行速度的看法、推荐的硬件设备(如英伟达的显卡、HP Z2 minis)以及对原帖主目标合理性的评估等。

主要观点

  1. 👍 在选择用于大型语言模型推理的硬件时要考虑计算能力、内存大小和内存带宽
    • 支持理由:评论者详细比较M2 Max和M4在这三个方面的表现,M2 Max在各方面优于M4并给出使用M2 Max的相关测试数据。
    • 反对声音:无
  2. 🔥 AMD即将推出的APUs在2025年初性能较好
    • 正方观点:作者表示如果可以等待,其性能会比其他迷你PC好。
    • 反方观点:无
  3. 💡 原帖作者40 - 50个令牌/秒的目标很高
    • 解释:评论者以自己4070超级显卡运行llama3.1 8b Q4KM达到40个令牌/秒为例来说明。
  4. 💡 Mistral模型用于法语生成存在不足
    • 解释:评论者表示该模型生成法语会缺失很多适合法语的语调和语境。
  5. 💡 批量推理相比单批次推理速度有极大提升并改变经济性
    • 解释:如3090设备下从单批次的50 tokens/秒提升到批量的2000 tokens/秒。

金句与有趣评论

  1. “😂 There are 3 main factors to think about when picking hardware for LLM inference: 1. Compute 2. Memory size 3. Memory bandwidth.”
    • 亮点:简洁地概括了选择硬件的关键因素。
  2. “🤔 I don’t think so, and it would be hard to get working, but TBH it could be much better than the serial performance most people test on these APUs.”
    • 亮点:对原帖中关于运行aya - expanse - 32b的疑问给出了理性的分析。
  3. “👀 Mistral models are pretty bad for French generation; they miss a lot of tones and context that are proper for the French language.”
    • 亮点:指出Mistral模型在法语生成方面的缺点。
  4. “💡 Since my M2 Max is binned, I can see the full 38 GPU core M2 Max doing ~40 tokens/second for a quantized 8B model.”
    • 亮点:给出了M2 Max在特定模型下的性能数据。
  5. “😎 if you want something small and energy efficient and fast then have a look at the HP Z2 minis.”
    • 亮点:针对原帖需求推荐了HP Z2 minis并概括其特点。

情感分析

总体情感倾向积极,大家都在积极为原帖作者提供建议和分享自己的经验。主要分歧点较少,只是在一些硬件性能和模型表现上存在不同观点,这是因为大家基于自己不同的使用经验和知识背景进行评论。

趋势与预测

  • 新兴话题:AMD即将推出的Strix Halo APUs可能会引发后续关于其性能以及与其他硬件比较的讨论。
  • 潜在影响:对构建用于AI推理的迷你PC领域,会让人们在硬件选择上有更多的考虑因素和新的选择方向。

详细内容:

标题:构建用于 aya-expanse-8b 推理的迷你 PC 引发的热烈讨论

在 Reddit 上,有一个关于构建专门用于人工智能推理的迷你 PC 的帖子引起了广泛关注,获得了众多点赞和大量评论。帖子的作者是一位人工智能爱好者,想要打造一台能高效、节能地进行推理的迷你 PC,用于小说和轻小说的机器翻译,特别是针对 aya-expanse-8B 模型,目标是达到每秒 40 - 50 个令牌的处理速度。

讨论的焦点主要集中在硬件配置的选择以及性能优化等方面。有人认为 M2 Max 是个不错的选择,在计算、内存大小和内存带宽等方面都优于 M4,比如[Mysterious_Finish543]表示“M2 Max 在这三个指标上都碾压 M4。计算方面,M4 Pro 在原始计算能力上就输给了 M2 Max,其 GPU 核心数约为 M2 Max 的一半,架构改进也无法弥补 18 个核心的差距。内存大小方面,M2 Max 最多可达 96GB 统一内存用于模型,是 M4 的三倍。内存带宽方面,M2 Max 为 400GB/s,而 M4 仅为 120GB/s,差距明显。” 还有人提到苹果的 ARM 芯片在能耗、内存带宽和推理支持方面表现出色,但缺点是必须使用 MacOS。

[Mysterious_Finish543]还分享了个人经历:“我日常使用配备 32GB 内存的 binned M2 Max(12 + 30)。以下是一些基准测试结果:在 Qwen-2.5-7B-Instruct-Q8_0 模型下,每秒生成 30 个令牌;在 Qwen-2.5-14B-Instruct-IQ4_XS 模型下,每秒生成 20.5 个令牌;在 Qwen-2.5-32B-Instruct-IQ4_XS 模型下,每秒生成 12 个令牌。在所有这些基准测试中,GPU 使用率为 100%,功耗(包括屏幕和我的 MacBook 上的其他组件)飙升至 80W,然后稳定在 60 - 70W。由于我的 M2 Max 经过了筛选,我可以看到完整的 38 个 GPU 核心的 M2 Max 对于量化的 8B 模型每秒能生成约 40 个令牌。也就是说,我觉得每秒约 30 个令牌对我来说已经足够了,以这样的速度,生成令牌的速度已经比我阅读的速度还快。”

也有人认为可以等待 AMD 即将在 2025 年初推出的 strix halo APUs,[Downtown-Case-1755]称其将超越其他迷你 PC。还有人推荐了 Nvidia 的 quadri p6000 或 3090ti 等显卡。

不过,也有人提出不同看法,[FullOf_Bad_Ideas]认为只要使用慢速的 RAM,IGPU 和 NPU 就无关紧要,而且应注重批量推理,这能大大提高翻译小说的速度。

此外,[loadsamuny]推荐了价格较高但性能不错的 HP Z2 minis,并提供了相关链接:https://www.hp.com/gb-en/shop/product.aspx?id=8T1Q1EA&opt=ABU&sel=DTP&source=google&channel=cpc&adcampaign=OLS-UK-PS-Wks-Goo-Pmax&addisttype=xpla&kw=&adid=&infinity=ict2netgawcmpOLS-UK-PS-Wks-Goo-Pmaxagarkw~~mt&gad_source=1&gclid=EAIaIQobChMIrcXbh5nhiQMVv5pQBh36DzuiEAQYASABEgJ10_D_BwE&gclsrc=aw.ds 。

在这场讨论中,大家对于如何构建满足需求的迷你 PC 各抒己见,既有对不同硬件配置的深入分析,也有个人实际使用的经验分享。这为想要构建类似设备的人提供了丰富的参考和思考。但究竟哪种方案才是最优解,还需要根据个人的具体需求和预算来决定。