大家好。我终于组装好了用于大型语言模型/人工智能实验的设备。它是i7 - 12700kf(12核/20线程)、128Gb内存和3090 RTX 24GB显存的。虽然它能够在CPU上运行例如llama3.3 70B这种模型,但能适配显存(VRAM)的模型运行速度要快得多。到目前为止,我在通用讨论方面使用Gemma2 27B得到了非常好的结果,在编程方面使用Qwen2.5 - coder 31B得到了很好的结果。当你们受限于24Gb内存时,会使用什么模型呢?
讨论总结
原帖作者介绍自己的设备配置(i7 - 12700kf、128Gb RAM、3090 RTX 24GB)并询问在24Gb限制下大家使用什么模型。评论者们纷纷给出了自己的观点,主要围绕在24Gb限制下可运行的模型、模型的性能、量化方式、运行速度以及特定硬件(如3090、双3090、7900 XTX等)相关的情况展开讨论,还涉及一些模型推荐背后的原理阐述,整体氛围较为积极、专业,大家互相分享知识与经验。
主要观点
- 👍 在24Gb限制下可使用32b的Q4km模型。
- 支持理由:评论者直接分享使用经验。
- 反对声音:无。
- 🔥 推荐Llama 3.1 Nemotron 51b可在24Gb显存内运行。
- 正方观点:给出可运行的量化值和HuggingFace链接。
- 反方观点:有其他评论者询问该模型好坏,表明对推荐存在疑问。
- 💡 24Gb限制下Mistral small是合适的选择。
- 解释:这是评论者根据自身经验给出的推荐。
- 👍 在3090设备上运行qwen2.5 1B 4bpw作为qwen2.5 coder 32B的草稿模型,速度在40到60 Tok/s之间。
- 支持理由:评论者直接分享自己设备上的运行情况。
- 反对声音:无。
- 🔥 AMD对仅支持CUDA(很大一部分AI工具)的AI无用,但LLMs甚至可以在CPU上运行,所以AMD GPU运行得相当好。
- 正方观点:通过解释AMD与CUDA的关系及LLMs在CPU上可运行来说明AMD GPU的运行情况。
- 反方观点:无。
金句与有趣评论
- “😂 [I find that the perfect match for 24GB is Mistral small.]”
- 亮点:简洁直接地给出24Gb限制下的模型推荐。
- “🤔 [Llama - 3_1 - Nemotron - 51B - instruct is a large language model (LLM) which is a derivative of Llama - 3.1 - 70B - instruct (AKA the reference model). We utilize a block - wise distillation of the reference model, where for each block we create multiple variants providing different tradeoffs of quality vs. computational complexity.]”
- 亮点:详细解释了推荐模型的衍生关系和其采用的分块蒸馏方式及意义。
- “👀 [Quantised (Q4) QwQ 32b can run on a 24gb, really fast and very good model!]”
- 亮点:明确指出一种可在24gb设备上运行且速度快、效果好的模型。
- “😎 [With 24GB VRAM you can go up to around 72B Q4 (with partial offloading), which gives ~2.5 tok/s depending on GPU/specs and model.]”
- 亮点:给出24GB显存下运行特定模型的速度情况。
- “💥 [On my 3090, I run qwen2.5 1B 4bpw as a draft model for qwen2.5 coder 32B in 4 bpw. I get between 40 and 60 Tok/s.]”
- 亮点:具体分享3090设备上运行特定模型的速度情况。
情感分析
总体情感倾向是积极的。主要分歧点在于对推荐模型的好坏存在疑问,例如对Llama 3.1 Nemotron 51b模型的好坏有评论者表示不清楚,需要更多解释。可能的原因是不同的模型在不同的应用场景下表现不同,大家对模型的要求和期望也存在差异。
趋势与预测
- 新兴话题:随着硬件设备的发展,如AMD在AI相关应用中的使用情况可能会成为后续讨论的热点,特别是AMD与CUDA的兼容性以及如何更好地利用AMD GPU运行LLMs。
- 潜在影响:对LLMs在不同硬件设备上的运行优化,可能会影响到AI技术在不同硬件平台上的普及程度,推动相关技术在更多设备上的应用和发展。
详细内容:
标题:在 24Gb 内存限制下运行 LLMs 的热门讨论
在 Reddit 上,有一个关于“LLMs which fit into 24Gb”的热门帖子引起了广泛关注。该帖子中,作者分享了自己搭建的用于 LLMs/AI 实验的设备,包括 i7-12700kf(12С/20T)、128Gb 内存和 3090 RTX 24 GB。作者提到在 CPU 上能运行 llama3.3 70B 模型,但能适配 VRAM 的模型运行速度要快很多,并分享了使用 Gemma2 27B 进行通用讨论和 Qwen2.5-coder 31B 进行编程的不错效果,还询问大家在 24Gb 内存限制下的使用情况。此贴获得了众多评论和较高的关注度。
在讨论中,观点丰富多样。有人提供了相关模型的链接,如[jacek2023]的[https://www.reddit.com/r/LocalLLaMA/comments/1gai2ol/list_of_models_to_use_on_single_3090_or_4090/]和[AdamDhahabi]的[https://huggingface.co/ymcki/Llama-3_1-Nemotron-51B-Instruct-GGUF]。
有用户表示对于双 3090s 与 NVLink 的情况提出疑问,猜测可能只是参数或量化大小翻倍。还有用户分享了个人经历,比如[ShinyAnkleBalls]称在自己的 3090 上运行 qwen2.5 1B 4bpw 作为 qwen2.5 coder 32B 的草案模型,能获得 40 到 60 Tok/s 的速度,而[viperx7]表示相同设置在 4090 上能达到 60 - 80 tok/s。
关于不同量化级别,有人认为 Q4 较好,Q6 是最佳点,Q8 输出效果最好;也有人表示 Q5 能很好地适配自己的 VRAM。对于不同模型在 24Gb VRAM 下的表现,有人认为 72B Q4 可通过部分卸载实现,也有人指出更现实的是 32B Q4 或 27B Q5 能在速度和输出质量间达到较好平衡。
此外,有人认为 Mistral small 是 24GB 的完美匹配,还有人在探讨 AMD 在 AI 中的应用以及相关软件设置等问题。
总的来说,大家在 24Gb 内存限制下对于选择合适的 LLMs 模型及相关配置进行了深入探讨,既有不同模型和量化级别的比较,也有个人实际使用的经验分享。但关于哪种模型和配置才是最优解,目前还没有达成完全的共识。
感谢您的耐心阅读!来选个表情,或者留个评论吧!