这是Sixunited 395+迷你PC。它也应该在5月推出。全是中文内容。我看到屏幕上有3个标记滚动,我猜这意味着3tk/s(每秒3个标记)。考虑到这是一个70GB的模型,鉴于Strix Halo的内存带宽,这是合理的。大型语言模型(LLM)相关内容从大约4分钟处开始。https://www.bilibili.com/video/BV1xhKsenE4T
讨论总结
整个讨论围绕一个运行70B Q8模型的Mini PC展开,涉及到它的性能表现、硬件限制、运行速度以及硬件配置等方面。大家从不同角度分析该Mini PC的情况,有对其性能表示不屑的,也有理性探讨硬件之间匹配关系的,整体氛围比较偏向技术交流。
主要观点
- 👍 视频中的Mini PC平均每秒运行3个令牌。
- 支持理由:视频显示如此。
- 反对声音:无。
- 🔥 统一内存单元有大内存但运行大模型速度受限。
- 正方观点:很多统一内存单元存在这样的情况。
- 反方观点:无。
- 💡 多数人更关注70B模型的上下文规模而非速度。
- 解释:在特定上下文规模下速度是可接受的。
- 👀 系统运行70B模型时显存配置为64GB是为了避免问题。
- 解释:视频上传者在评论区如此表示。
- 🤔 256GB/s带宽APU/GPU适合32B模型。
- 解释:从性能角度考虑这种搭配较好。
金句与有趣评论
- “😂 Yes, the video says it’s running at 3 tokens per second on average.”
- 亮点:直接指出视频中Mini PC的运行令牌速度。
- “🤔 那就是所有这些统一内存单元的问题。它们有巨大的内存,但没有硬件来以可用速度运行任何大于32b的模型。”
- 亮点:揭示统一内存单元在运行大模型时的硬件速度问题。
- “👀 大多数人会希望在70B模型上有128k的上下文。”
- 亮点:提出多数人对70B模型上下文规模的期望。
- “😎 我认为MOEs像7个活动,总共50个对于这类系统来说绝对是非常理想的。”
- 亮点:阐述特定MOEs配置对这类系统的价值。
- “🤨 如果有任何公司推出这样的硬件,那么很多公司都会想要它,用于编程辅助。”
- 亮点:说明符合要求的硬件在编程辅助方面的吸引力。
情感分析
总体情感倾向比较中性,主要分歧点在于对Mini PC性能的看法,有人认为性能差,有人则是理性分析硬件之间的关系等。可能的原因是大家关注的重点不同,有的关注运行速度,有的关注硬件本身的限制等。
趋势与预测
- 新兴话题:对于70B模型合适的硬件期待(如256bit CAMM2等)可能引发后续讨论。
- 潜在影响:对相关硬件开发方向可能有影响,促使硬件朝着更适合运行大模型的方向改进。
详细内容:
标题:AMD Strix Halo Mini PC 运行 70B Q8 模型引发的热议
在 Reddit 上,一则关于 AMD Strix Halo Mini PC 宣布运行 70B Q8 模型的帖子引起了广泛关注。该帖子包含了相关视频的链接(https://www.bilibili.com/video/BV1xhKsenE4T),获得了众多用户的讨论,评论数众多。
帖子主要围绕该 Mini PC 运行此模型的性能表现展开。核心问题在于其运行速度、内存带宽以及在实际应用中的适用性。
讨论焦点与观点分析: 有人表示,视频中该 Mini PC 平均运行速度为每秒 3 个令牌,低于 15 个令牌每秒的速度在实际应用中不太实用。随着上下文窗口的填充,模型可能会进一步减速。比如在处理非常复杂的任务时,速度可能会低于每秒 3 个令牌。所以不会为了运行 70B LLM 而购买这款 PC。 也有人认为,较低的量化模型能将速度提升到每秒 10 个以上。虽然量化程度低可能效果稍差,但 4 位变体已证明了其价值。 还有人提出,额外的 RAM 是为了预留空间。比如可以在同一台 PC 上同时加载稳定扩散模型,避免每次都从磁盘加载,节省时间。但也有人质疑其内存带宽是否能满足需求。 有人分享个人经历,称在两块 5090 显卡上,70b Q5 能达到每秒 20 个令牌。 有人指出,统一内存单元存在问题,硬件难以支持以可用速度运行大于 32b 的模型。 有人认为 Strix Halo 可能适合运行中等模型(22B - 32B),额外的 RAM 在这方面能发挥作用。 有人提到,运行速度还取决于处理能力,否则会像等待数分钟才能获得几百个令牌一样缓慢。
总之,关于 AMD Strix Halo Mini PC 运行 70B Q8 模型的讨论丰富多样,既有对其性能的质疑,也有对其潜在优势的探讨。
感谢您的耐心阅读!来选个表情,或者留个评论吧!