原贴链接

大多数人可能不太熟悉,因为在大多数地方都能轻松上网,但世界上仍有一些地方(幸运的是并不多),人们必须去咖啡馆才能通过WiFi上网,而且网速很慢。过去,人们会在那里租用实体电脑,但智能手机的出现使人们只需拿着手机坐在那里通过WiFi“租用”网络。为了普及大型语言模型(LLM),我正在考虑对LLM做同样的事情,因为其速度与在线访问LLM相差甚远(或者它们很可能被屏蔽)。那么,为同时服务20 - 50人,现实的GPU设置是怎样的呢?基本上我是要捐赠这些设备的。假设是llama3.1:70b或者llama3.1:405b。首次试验倾向于70b。

讨论总结

原帖提出在网络受限地区建立类似网咖的LLM Cafe并寻求合适的GPU设置来服务20 - 50人。评论者们围绕这个话题展开了多方面的讨论,涉及硬件的选择(如Mac minis、3090等)、不同模型运行所需硬件差异、成本因素(包括设备成本和运行成本)、这种模式的合法性与风险、当地用户对本地LLM的需求以及该计划的可行性等,讨论热度中等偏下,大家各抒己见,有一定争议。

主要观点

  1. 👍 可以使用新Mac minis做LLM网咖并运行ollama,但有很多管理相关的事情要做。
    • 支持理由:没有明确提及,只是提出一种可行的方案。
    • 反对声音:Mac minis太贵,这种规模下使用不实际。
  2. 🔥 不同大小的LLM运行所需硬件有很大差异。
    • 正方观点:50个Llama 3.2s与50个405Bs所需硬件差异很大。
    • 反方观点:无明确反对。
  3. 💡 运行本地GPU不合理,远程运行基础设施更便宜高效。
    • 解释:从实际角度看,远程运行基础设施在成本和效率上更有优势。
  4. 🤔 原帖提到的70b的模型太大不适合,可以运行Qwen 2.5 32B。
    • 解释:认为原帖模型太大,推荐更合适的模型。
  5. 👀 当下设置在咖啡馆使用的LLM的GPU不具备可行性,应等待第一波消费级AI硬件浪潮。
    • 解释:目前咖啡馆用户对AI质量和速度有期望,现在开展相关设置不实际,等待后会有更好的条件。

金句与有趣评论

  1. “😂 bluelobsterai:If I were doing an Internet café, I would get new Mac minis. I’d run ollama and let everyone do whatever.”
    • 亮点:提出一种直观的关于LLM网咖硬件设置的想法。
  2. “🤔 ranoutofusernames__:Unfortunately way too expensive at that scale. It used to be that way but there’s literally zero computers now. It all works off WiFi and people use their smartphones.”
    • 亮点:针对前面观点指出成本过高的问题。
  3. “👀 brotie:This idea doesn’t really make sense then. Why go somewhere to consume someone else’s LLM on your own device?”
    • 亮点:从逻辑上对原帖想法提出质疑。
  4. “😎 ForsookComparison:Yeahhh I was with you until this comment. There are valid retorts to what they asked that you could have said, but you tried for a Reddit "gotcha" instead.”
    • 亮点:指出评论者的不当反驳方式。
  5. “💡 Downtown - Case - 1755:When serving multiple users, you don’t run concurrent instances but a batched server that can process requests in parallel. This is much faster and more memory efficient.”
    • 亮点:提出服务多用户时更优的服务器运行方式。

情感分析

总体情感倾向为中性。主要分歧点在于是否认可原帖提出的建立LLM Cafe并进行特定硬件设置的想法。可能的原因是大家从不同的角度(如技术、成本、需求、合法性等)去看待这个问题,各自有不同的考量因素。

趋势与预测

  • 新兴话题:关于在网络受限地区提供LLM服务的合法性和风险问题可能会引发后续讨论。
  • 潜在影响:如果这种LLM Cafe模式可行,可能会影响到网络受限地区人们获取信息的方式,也可能对LLM的推广和应用产生一定的推动作用。

详细内容:

《关于为缺乏网络地区创建 LLM 网吧的热门讨论》

在 Reddit 上,一篇题为“Hardware for LLM Cafe”的帖子引发了热烈讨论。该帖子主要探讨了在部分网络条件有限的地区创建 LLM 网吧的可能性,其获得了众多关注,评论数众多。

帖子提出了一个疑问:为了能同时服务 20 - 50 人,什么样的 GPU 配置是现实可行的?假设使用 llama3.1:70b 或 llama3.1:405b 模型,先倾向于 70b 进行首次尝试。

讨论中,观点各异。有人认为开网吧可以买新的 Mac minis 运行 ollama,不过也有人指出在这种规模下成本太贵,一切通过 WiFi 运行即可。还有人质疑这个想法的合理性,认为租用远程 GPU 计算资源更具成本效益和运营便利性。

例如,有人说:“如果我开一家网吧,我会买新的 Mac minis。我会运行 ollama,让大家随心所欲。当然,这比这要复杂得多,比如管理用户账户、清理系统、记录日志以及网吧可能涉及的所有事情,这些我都一无所知,但这些新迷你电脑的性价比让向人们介绍本地语言模型变得非常容易。”

同时,有人表示:“不幸的是,在这个规模上太贵了。以前是这样,但现在根本不需要电脑了。一切都通过 WiFi 运行,人们使用他们的智能手机。理想情况下,我希望有一个 GPU 设置,用户可以通过本地 WiFi 访问。在这种情况下,价格是一个很大的因素。”

对于此话题,也存在一些共识,比如大家都认识到网络条件的限制是关键问题。

特别有见地的观点如有人提到可以采用多 RTX4090 的设置或者直接使用 H100 等高端硬件,但同时也需考虑成本和实际需求。

总之,这场讨论充分展现了在为网络受限地区提供 LLM 服务这一问题上的多种思考和争议,让我们对这一复杂的话题有了更深入的认识。