原贴链接

这是Sixunited 395+迷你PC。它也应该在5月推出。全是中文内容。我看到屏幕上有3个标记滚动，我猜这意味着3tk/s（每秒3个标记）。考虑到这是一个70GB的模型，鉴于Strix Halo的内存带宽，这是合理的。大型语言模型（LLM）相关内容从大约4分钟处开始。https://www.bilibili.com/video/BV1xhKsenE4T

讨论总结

整个讨论围绕一个运行70B Q8模型的Mini PC展开，涉及到它的性能表现、硬件限制、运行速度以及硬件配置等方面。大家从不同角度分析该Mini PC的情况，有对其性能表示不屑的，也有理性探讨硬件之间匹配关系的，整体氛围比较偏向技术交流。

主要观点

👍 视频中的Mini PC平均每秒运行3个令牌。
- 支持理由：视频显示如此。
- 反对声音：无。
🔥 统一内存单元有大内存但运行大模型速度受限。
- 正方观点：很多统一内存单元存在这样的情况。
- 反方观点：无。
💡 多数人更关注70B模型的上下文规模而非速度。
- 解释：在特定上下文规模下速度是可接受的。
👀 系统运行70B模型时显存配置为64GB是为了避免问题。
- 解释：视频上传者在评论区如此表示。
🤔 256GB/s带宽APU/GPU适合32B模型。
- 解释：从性能角度考虑这种搭配较好。

金句与有趣评论

“😂 Yes, the video says it’s running at 3 tokens per second on average.”
- 亮点：直接指出视频中Mini PC的运行令牌速度。
“🤔 那就是所有这些统一内存单元的问题。它们有巨大的内存，但没有硬件来以可用速度运行任何大于32b的模型。”
- 亮点：揭示统一内存单元在运行大模型时的硬件速度问题。
“👀 大多数人会希望在70B模型上有128k的上下文。”
- 亮点：提出多数人对70B模型上下文规模的期望。
“😎 我认为MOEs像7个活动，总共50个对于这类系统来说绝对是非常理想的。”
- 亮点：阐述特定MOEs配置对这类系统的价值。
“🤨 如果有任何公司推出这样的硬件，那么很多公司都会想要它，用于编程辅助。”
- 亮点：说明符合要求的硬件在编程辅助方面的吸引力。

情感分析

总体情感倾向比较中性，主要分歧点在于对Mini PC性能的看法，有人认为性能差，有人则是理性分析硬件之间的关系等。可能的原因是大家关注的重点不同，有的关注运行速度，有的关注硬件本身的限制等。

趋势与预测

新兴话题：对于70B模型合适的硬件期待（如256bit CAMM2等）可能引发后续讨论。
潜在影响：对相关硬件开发方向可能有影响，促使硬件朝着更适合运行大模型的方向改进。

详细内容：

标题：AMD Strix Halo Mini PC 运行 70B Q8 模型引发的热议

在 Reddit 上，一则关于 AMD Strix Halo Mini PC 宣布运行 70B Q8 模型的帖子引起了广泛关注。该帖子包含了相关视频的链接（https://www.bilibili.com/video/BV1xhKsenE4T），获得了众多用户的讨论，评论数众多。

帖子主要围绕该 Mini PC 运行此模型的性能表现展开。核心问题在于其运行速度、内存带宽以及在实际应用中的适用性。

讨论焦点与观点分析：有人表示，视频中该 Mini PC 平均运行速度为每秒 3 个令牌，低于 15 个令牌每秒的速度在实际应用中不太实用。随着上下文窗口的填充，模型可能会进一步减速。比如在处理非常复杂的任务时，速度可能会低于每秒 3 个令牌。所以不会为了运行 70B LLM 而购买这款 PC。也有人认为，较低的量化模型能将速度提升到每秒 10 个以上。虽然量化程度低可能效果稍差，但 4 位变体已证明了其价值。还有人提出，额外的 RAM 是为了预留空间。比如可以在同一台 PC 上同时加载稳定扩散模型，避免每次都从磁盘加载，节省时间。但也有人质疑其内存带宽是否能满足需求。有人分享个人经历，称在两块 5090 显卡上，70b Q5 能达到每秒 20 个令牌。有人指出，统一内存单元存在问题，硬件难以支持以可用速度运行大于 32b 的模型。有人认为 Strix Halo 可能适合运行中等模型（22B - 32B），额外的 RAM 在这方面能发挥作用。有人提到，运行速度还取决于处理能力，否则会像等待数分钟才能获得几百个令牌一样缓慢。

总之，关于 AMD Strix Halo Mini PC 运行 70B Q8 模型的讨论丰富多样，既有对其性能的质疑，也有对其潜在优势的探讨。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#