我正在做一个个人项目,我想能够在大型语言模型之间切换,并通过语音转文字与它们交流,既是为了测试也是为了娱乐。我正在使用一家名为Picovoice的公司提供的软件,他们提供了Gemma、Llama2、Llama3、Mistral、Mixtral和Phi2等不同大小的模型。7B参数的模型是否不可能?是否有价格相似(<100美元)的计算机能更好地运行大型语言模型?如果你试图制造一个价格相对较低的设备,你会使用什么硬件,并包含哪些模型?
讨论总结
本次讨论主要围绕在树莓派5等低成本设备上运行开源模型的可行性和性能优化展开。参与者分享了在不同硬件配置下运行模型的经验,包括树莓派5、Orange Pi、Beaglebone AI-64等设备,以及各种开源模型如Gemma、Llama、Phi等。讨论中涉及模型的参数大小、生成速度、交互性能和语音识别技术的应用。总体上,讨论呈现出对低成本设备运行高性能模型的探索和实践,以及对硬件和模型选择的深入讨论。
主要观点
- 👍 7-8B参数模型在树莓派5上运行较慢但可行
- 支持理由:用户分享了在树莓派5上运行7-8B参数模型的经验,虽然速度较慢,但仍可使用。
- 反对声音:无
- 🔥 0-3B参数模型在树莓派5上运行效果良好
- 正方观点:多个用户证实0-3B参数模型在树莓派5上的运行效果良好,速度较快。
- 反方观点:无
- 💡 在Orange Pi 5 8GB RAM上成功运行多个开源模型
- 解释:作者分享了在Orange Pi 5上成功运行Gemma 2 2b、Phi3.5和Llama3 q4模型的经验。
- 👀 使用4核心CPU和8GB或更多RAM的小型PC比RPi更适合运行LLMs
- 解释:chamonga24建议使用小型PC如UM350 mini PC,其性能优于树莓派。
- 🚀 存在一些新的量化模型在ARM架构上运行速度更快
- 解释:fallingdowndizzyvr提到新的量化模型如Q4_0_4_4在ARM架构上运行速度更快。
金句与有趣评论
- “😂 HodorBanana:Q4 quants of 7-8B models will run, just a little slow.”
- 亮点:幽默地表达了7-8B模型在树莓派上运行虽慢但可行的观点。
- “🤔 chamonga24:Search for Pocket PC or Small PC on amazon and any of the 4Core CPU with 8GB or more RAM devices will work better than RPi.”
- 亮点:提供了具体的硬件选择建议,强调小型PC的性能优势。
- “👀 Sambojin1:"On ARM devices, they’re about 25-50% faster than the standard desktop computer versions."”
- 亮点:强调了ARM优化模型在性能上的显著优势。
情感分析
讨论的总体情感倾向积极,参与者普遍对在低成本设备上运行开源模型持乐观态度,并分享了各自的实践经验和建议。主要分歧点在于硬件选择和模型性能,部分用户倾向于使用小型PC而非树莓派,以获得更好的性能。
趋势与预测
- 新兴话题:新的量化模型和ARM优化模型可能成为未来讨论的热点。
- 潜在影响:这些讨论可能推动更多针对低成本设备的优化模型开发,以及更多用户尝试在资源有限的环境中部署高性能模型。
详细内容:
标题:在树莓派 5(8GB 内存)上运行开源模型的热门讨论
在 Reddit 上,一则关于“在树莓派 5(8GB 内存)上能较好运行哪些开源模型”的帖子引发了热烈讨论。该帖子获得了众多关注,评论数众多。帖子中,发帖者表示正在进行一个个人项目,想在不同的语言模型(LLMs)之间切换,并通过语音转文字与之交流,用于测试和娱乐。还提到了使用的软件公司 Picovoice 提供的各种模型,如 Gemma、Llama2、Llama3、Mistral、Mixtral 和 Phi2 等,并询问 7B 参数模型是否可行,是否有价格低于 100 美元且性能更好的电脑,以及若要制作低价设备,应使用何种硬件和模型。
讨论焦点与观点分析: 有人表示 Q4 量化的 7 - 8B 模型可以运行,但速度稍慢,0 - 3B 运行良好,经常使用 phi、gemma 和 qwen 等较小模型在树莓派 5/8g 上运行。 有人质疑像这样的模型能否进行合理的交流。 也有人认为 Q4 较好的 8B 模型应该还不错,但不清楚在当前情况下的速度。 还有人分享自己在 12GB 安卓手机上使用 Q5 llama3.1 的经历,虽然有点慢但并非特别慢,在询问搬家时应先打包什么以便让新家快速宜居时,得到了与 ChatGPT 几乎相同的答案。 有人好奇使用的是什么应用,是否通过 NPU 加速。 有人指出如果是高通芯片,自 2018 年(甚至更早)就有现在所谓的 NPU 了。 有人询问能否给出在树莓派上运行模型的每秒令牌数。 有人认为一旦加入语音解码,可能无法适应内存或速度极慢。 有人表示如今语音转文字效率较高,会有影响但不会太大。 有人推荐 Gemma 2 - 2B - it,认为其速度快且在其规模下表现良好。 有人分享自己在橙派 5(8GB 内存)上成功运行 gemma 2 2b 和 phi3.5(Q8)以及 llama3(Q4)的经历,还表示 Whisper 和 piper tts 运行良好。 有人询问其使用场景。 有人认为 Phi 3 可能可行,或许还有 Gemma 2 系列。 有人在自己的树莓派上使用 mistal nemo 4Q 且效果不错。 有人表示对于更好的选择,拥有 8GB VRAM 的 GPU 是最佳选择。 有人提到在亚马逊上搜索掌上电脑或小型电脑,任何 4 核 CPU 且 8GB 或更多内存的设备都会比树莓派表现更好。 有人认为树莓派在某些情况下具有最佳支持,尽管橙派可以运行非官方的出色操作系统。 有人分享了自己对不同 CPU 核心数量下 Docker 运行性能数据的测试和分析。 有人表示在使用树莓派时需要相当大容量的移动电源,若添加 NVMe(会提升性能)则会消耗 15W。 有人表示自己有 65W 移动电源,闲置时可维持约 30 小时,若要维持 8 小时则可接受,若需要更换电池也能接受,因想要 Hailo - 8L 而未使用 NVMe,对性能表示满意,总之取决于使用场景。 有人提到一些新的量化方式,如 Q4_0_4_4 在 ARM 上应该更快。 有人认为需要某种客观的衡量标准,对交互使用而言,低于 8 到 10 令牌/秒就不行,首次响应令牌的时间也很重要。 有人分享若电脑有某些 PCIe 电源线,40 美元的 P102 对 llama 3.1 8b Q8 可实现 35 令牌/秒,通过 tailscale 在手机上访问家庭服务器。 有人分享了一系列模型的链接,并表示在 ARM 设备上,这些模型比标准台式机版本快约 25 - 50%。 有人提到微软基于查找表的 T - MAC 是最快的 CPU 解决方案。 有人认为 Beaglebone AI - 64 具有专门用于 ML 的并行处理但只有 4GB 内存,橙派 PI Pro 可能是更好的选择,其有 8 核处理器和 16GB 内存,虽更贵但性能可能更好,并询问是否有人在这些设备上进行过测试。 有人表示 flan - t5 - base 可在低端设备上运行,甚至在手机上成功运行。
在这场讨论中,大家对于在树莓派 5 上运行开源模型的可行性、性能表现以及替代设备的选择进行了深入探讨,观点丰富多样,但对于最佳方案尚未达成明确共识。
感谢您的耐心阅读!来选个表情,或者留个评论吧!