原贴链接

我们正在考虑创建一个类似于Chatbot Arena的动态排行榜,但专门针对边缘硬件。这个想法是,一组设备(从10个树莓派5开始)实时运行模型,允许用户动态比较Tiny/Compressed LLMs的性能,而不依赖于静态基准。我们还考虑增加每秒3.6个token的最小延迟限制(大约对应每秒1个单词)。

一些考虑因素:

  1. 成本和耐用性:树莓派5以其低价格(<$80)和8GB内存,对希望产生一些低成本结果的开发者来说是一个有吸引力的选择。

  2. 动态排行榜:通过在集群上同时运行多个会话,我们可以提供量化/压缩模型的实时比较。这将为我们提供模型在现实世界中如何叠加的准确图景。

  3. 服务器空间和电力:当然,管理一个24x7实时集群有其挑战,包括服务器空间和电力需求,但我们相信这些见解可能非常宝贵。

我们很乐意听取您的意见:

  1. 这样的排行榜对您或您的业务有用吗?

  2. 您目前使用的是什么边缘硬件,性能如何比较?

  3. 您认为动态实时排行榜比静态指标提供更多价值吗?

任何评论或想法都将受到我们的欢迎,因为我们正在探索这个潜在项目!

讨论总结

本次讨论主要围绕创建一个针对边缘硬件的动态排行榜,特别是使用 Raspberry Pi 5 等设备来实时运行和比较小型/压缩的 LLM 模型。参与者提出了不同级别的硬件(如 Raspberry Pi、高端智能手机和中档桌面 GPU)在处理不同规模模型时的性能设想。讨论涉及了动态排行榜的实用性、低成本优势、实时性能比较的价值,以及管理24x7运行集群的挑战。此外,还探讨了如何吸引用户参与、处理不同硬件和模型架构的延迟问题,以及如何通过激励机制和全速模型来提高排行榜的吸引力。

主要观点

  1. 👍 低成本硬件的优势
    • 支持理由:Raspberry Pi 5 因其低成本和8GB内存成为开发者的吸引选项。
    • 反对声音:对于在树莓派上运行高质量模型的可行性表示怀疑。
  2. 🔥 动态排行榜的价值
    • 正方观点:动态排行榜能够提供实时性能比较,比静态基准更有价值。
    • 反方观点:实施这一想法可能面临的挑战包括吸引用户使用。
  3. 💡 硬件多样性的重要性
    • Raspberry Pi 适合运行小型模型,而高端智能手机和中档桌面 GPU 可以处理更大规模的模型。
  4. 🚀 激励机制的必要性
    • 需要为使用排行榜提供激励,如免费访问最先进的模型。
  5. 🌐 全速模型的解决方案
    • 在排行榜中始终包含至少一个以“全速”输出的模型是一个可行的解决方案。

金句与有趣评论

  1. “😂 Balance-:Pi would be more for the 1B models, smartphone could push 3 to 7B, and mid-range GPU 10to 20B (at way higher speeds)”
    • 亮点:展示了不同硬件在处理不同规模模型时的性能差异。
  2. “🤔 FullOf_Bad_Ideas:It could be useful, but I suggest you just run inference on gpu and artificially limit output speed based on model size, it’s easily to effectively emulate slower device in many instances by just having single stronger device.”
    • 亮点:提出了通过GPU运行推理并人为限制输出速度来模拟较慢设备的建议。
  3. “👀 MoffKalast:I’m still getting around to running another test, but the Pi 5 should be even faster now with the NUMA emulation patch (+10% memory perf allegedly) and that special Q4_0_4_4 ARM quantization (+?%), maybe even cracking 3 tok/s for 8B at 4 bits, for very short contexts anyway.”
    • 亮点:讨论了通过NUMA仿真补丁和Q4_0_4_4 ARM量化技术提升Raspberry Pi 5性能的可能性。

情感分析

讨论的总体情感倾向是积极的,大多数参与者对创建一个针对边缘硬件的动态排行榜表示了兴趣和支持。主要的分歧点在于如何实施这一想法,包括吸引用户参与、处理不同硬件和模型架构的延迟问题,以及如何通过激励机制和全速模型来提高排行榜的吸引力。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括加入NPUs(如Snapdragon)和分布式处理技术。
  • 潜在影响:对相关领域或社会的潜在影响包括提供更全面的边缘硬件性能比较,促进低成本硬件的开发和应用。

详细内容:

《关于创建 Edge LLM 排行榜的热门讨论》

在 Reddit 上,有一则关于创建动态 Edge LLM 排行榜的话题引起了广泛关注。原帖提出要创建一个类似于 Chatbot Arena 但专门针对边缘硬件的动态排行榜,计划使用一组设备(从 10 个 Raspberry Pi 5 开始)实时运行模型,让用户动态比较微型/压缩的 LLM 性能,且考虑设置 3.6 tok /sec 的最低延迟限制。该帖子获得了众多用户的积极参与,评论数众多。

讨论的焦点主要集中在以下几个方面: 有人认为可以设置不同的设备规模,比如 Raspberry Pi、高端智能手机、中端桌面 GPU,Pi 适合较小的模型,智能手机能处理更大一些的模型,而中端 GPU 则能处理更大规模的模型。 有人指出,虽然 Pi 因成本低有吸引力,但实际使用中手机才是人们进行推理的主要移动设备,而 Rpi 类似于低性能的桌面设备,可能使用有限。也有人觉得这个排行榜可能有用,但建议在 GPU 上运行推理并人为限制输出速度来模拟较慢设备。 对于是否需要这样的动态实时排行榜,观点不一。有人认为它有价值,但也有人提出批评,认为要让人们使用需要提供激励,否则可能无人问津。 还有人提到,如果要实施这样的排行榜,需要解决一些技术和实际操作上的问题,比如如何测试模型、如何应对不同硬件的延迟差异、如何选择合适的设备规模等。

有用户认为,如果能在 Pi 5 上通过一些优化运行较大的 LLM 模型,应该将其纳入排行榜。但也有人觉得稀疏模型目前不太受欢迎,为了让排行榜更有用,应只部署易于被终端用户部署的模型。 有人使用了 Jetson Orin 64 GB 设备,并表示需要这样的 LLM 排行榜。 有人认为 Pi 5 加上一些优化补丁可能会更快,也有人提出按内存限制来分类更实用。 还有人表示,对于这样的排行榜是否真能在 Rpi 上达到一定的处理速度表示怀疑。

总体而言,大家对于创建这样的 Edge LLM 排行榜既有期待,也有诸多担忧和建议。如何平衡各种因素,打造一个实用且有吸引力的排行榜,还需要进一步的探讨和努力。