大家好,我想向更懂行的人征求一下意见,关于AMD Ryzen AI Max+ 395(哈哈)和NVIDIA的DIGITS相对于RTX 5090在运行本地大语言模型(LLMs)时的预期性能。为了提供背景信息,我现在提出这个问题是因为我正在考虑是否要和黄牛斗一斗,看看明天能不能买到RTX 5090,或者如果有更好的工具即将问世就放松一下/避免浪费钱。据我所知,AMD Ryzen AI Max+ 395声称在特定的人工智能工作负载下性能比RTX 4090高出2.2倍,而功耗最多可降低87%。96GB的内存可用于图形任务,这意味着可以运行更大的模型。这对于个人使用来说似乎很有前景,特别是我正在使用医学教科书和文章做很多检索增强生成(RAG)工作。据报道,DIGITS在FP4精度下可提供1千万亿次浮点运算(不太确定这在现实世界中意味着什么)以及128GB的统一内存,NVIDIA宣传其针对本地运行大型模型进行了优化。我很好奇这两者与RTX 5090相比如何。我知道RTX 5090“仅仅”有32GB的显存,所以在可运行的模型方面会更受限制,但如果它有巨大的推理速度优势,那么我会更倾向于它而不是能运行更大的模型。1. 你认为哪个选项在托管本地大语言模型时将提供最佳的性能 - 成本比?2. 你预计这些系统在处理科学论文、书籍等的检索增强生成(RAG)任务时的推理速度有多快?3. 我还应该记住其他的考虑因素或者替代方案吗?我在这里应该说明一下,我不想购买任何苹果产品。额外问题:深言科技(DeepSeek)和中国的研究人员是否彻底改变了游戏规则,我是否需要完全改变优化我现有硬件的重点?感谢提前给出见解!希望这也能帮助和我有同样情况的其他人。
讨论总结
原帖作者想要对比AMD Ryzen AI Max+ 395、NVIDIA DIGITS和RTX 5090在运行本地LLMs时的预期性能,在成本效益、推理速度、其他考虑因素等方面寻求意见。评论者们从不同角度发表看法,包括内存速度的重要性、性价比的比较、硬件的具体配置、新模型推出的影响等,但总体上还没有达成一个非常明确的结论,处于多观点交流探讨的状态。
主要观点
- 👍 目前内存速度是限制LLM的主要因素,在相关系统内存速度数据未确认前没太多可讨论的意义
- 支持理由:[没有内存速度数据,即便其他性能好也难以确定实际运行能力]
- 反对声音:[无]
- 🔥 二手3090性价比高于5090
- 正方观点:[用买一个5090的钱能买到三个二手3090]
- 反方观点:[未提及]
- 💡 现在判断三种产品在本地LLMs的性能为时尚早
- [理由是DIGITS和Max395与现有产品有很大差异,还有零拷贝等因素影响]
- 💡 新模型的推出情况对硬件选择很关键
- [不同模型对硬件要求不同,新模型可能影响硬件性能表现]
- 💡 单独的RTX 5090作用有限,仅在特定情况值得购买
- [如处理图像/视频模型的额外计算时,5090才有价值]
金句与有趣评论
- “😂 We don’t have any real data yet, brother.”
- 亮点:[直接指出目前缺乏关键数据,是整个讨论存在很多不确定性的根源]
- “🤔 最佳选择将是二手3090。”
- 亮点:[提出不同的性价比选择,打破只在原帖三种硬件里比较的局限]
- “👀 你得看看会推出哪些模型。DIGITS可能是250gb/s但却很失败。”
- 亮点:[强调新模型的重要性以及对DIGITS性能的担忧]
- “💡 太 早 了 , 还 无 法 判 断 。”
- 亮点:[表达出在当前情况下对三种硬件性能难以判断的态度]
- “😔 Wish we could just get a gpu with a CAMM2 module so we can add our own ram.”
- 亮点:[反映出对GPU内存扩展性不足的无奈和期望]
情感分析
总体情感倾向为中性,大家主要是理性探讨硬件性能相关话题。主要分歧点在于不同硬件的性价比和性能表现,原因是目前缺乏足够的产品信息(如内存速度等),并且不同人对硬件性能的需求和侧重点不同,例如有的人注重内存容量,有的人看重推理速度。
趋势与预测
- 新兴话题:[GPU内存扩展性可能会成为后续讨论的一个点,因为有评论提到希望有可添加内存的GPU]
- 潜在影响:[如果人工智能公司推出新模型的速度加快或者新模型的规模出现较大变化,可能会促使人们重新审视对这些硬件的需求,影响硬件的销售和研发方向]
详细内容:
标题:关于 AMD Ryzen AI Max+ 395、NVIDIA DIGITS 和 RTX 5090 在本地 LLMs 性能的热门讨论
在 Reddit 上,有一个关于 AMD Ryzen AI Max+ 395、NVIDIA DIGITS 和 RTX 5090 在运行本地 LLMs 时预期性能的热门讨论帖引起了大家的关注。该帖子获得了众多的点赞和评论,大家围绕着这几种硬件的性能、性价比、内存速度等方面展开了热烈的讨论。
帖子中提到,AMD Ryzen AI Max+ 395 声称在特定 AI 工作负载中性能比 RTX 4090 高出 2.2 倍,功耗降低 87%,且有 96GB 内存可用于图形任务;DIGITS 据说在 FP4 精度下能提供 1 千万亿次的性能,拥有 128GB 统一内存,NVIDIA 称其针对本地运行大型模型进行了优化;而 RTX 5090 虽只有 32GB VRAM,但如果在推理速度上有巨大优势,也可能更受青睐。
讨论焦点与观点分析: 有人指出,目前对于 DIGITS 和 Ryzen AI Max+ 395 的内存速度等信息还未确定,在未得到这些配置信息前,很难对它们的性能进行评估。比如有人说:“对于 DIGITS 我们还没有确认内存速度。对于 Ryzen AI Max+ 395 也是如此。目前对于 llm 来说,主要的限制因素是内存速度。如果 Ryzen 在特定 AI 任务中的速度快 10 倍,但内存只有 100GB/s,那也没什么意义。”
也有人提到容量问题,认为 DIGITS 和 Ryzen 的 128GB 容量是优势,而现有的 GPU 通常只有 24GB 或 32GB 的容量。
有人认为二手的 3090 可能是性价比更高的选择,也有人已经拥有 3090 并在考虑如何通过增加数量来提升性能。
还有人提到,如果统一内存能达到 256GB 会很棒。
关于不同硬件组合的性能,有人认为 4090 + 5090 组合,只要模型量化得当,能运行 72b 模型,推理速度约 15 - 25 个令牌/秒。
有人表示会坚持使用 24GB 的 3090 运行在 1Tbps 的速度。
有人认为现在判断还为时过早,Zero Copy 可能会有影响,还好奇 4070 笔记本电脑的 AI 性能如何。
有人希望能有一款 GPU 可以让用户自行添加内存。
讨论中的共识是在硬件信息不完全明确的情况下,难以准确判断哪种方案最优。
核心问题和争议点在于:在缺乏完整硬件配置信息的情况下,如何预估这些硬件在运行本地 LLMs 时的性能表现,以及哪种方案能提供最佳的性能价格比。
感谢您的耐心阅读!来选个表情,或者留个评论吧!