原贴链接

也许这是个愚蠢的问题,抱歉。

讨论总结

本次讨论围绕“是否大多数人在本地以gguf格式运行大型语言模型(LLMs)”这一问题展开。评论者们分享了各自在本地运行LLMs时对格式的选择及理由,涉及gguf、exl2等多种格式,讨论了不同格式在存储、速度、硬件适配、量化等方面的特点,还提及了不同程序对格式的支持情况,整体氛围积极且富有技术交流氛围。

主要观点

  1. 👍 多数人可能使用gguf格式运行LLMs
    • 支持理由:很多评论者表示自己使用gguf格式,部分软件使用该格式,且在过去一年它成为默认格式等。
    • 反对声音:有评论者表示自己使用exl2等其他格式,或指出在特定条件下其他格式更优。
  2. 🔥 不同格式各有优劣
    • 正方观点:gguf易于存储、对脚本编写友好、在一些软件中有较好支持、可在显存不足时扩展到内存等;exl2速度快。
    • 反方观点:gguf在多GPU设置下性能可能下降、若GPU不能容纳全部内容且溢出到内存时速度会很慢;exl2可能在某些功能上有限制(如不支持某些操作)。
  3. 💡 格式选择受多种因素影响
    • 解释:硬件设备(如是否有足够的显存、内存,是否为专用GPU等)、运行需求(如CPU推理还是GPU推理)、软件支持情况、是否易于操作等因素都会影响格式的选择。
  4. 💡 存在对格式相关概念的误解或不了解情况
    • 解释:如有人分不清ggml和gguf,通过交流才得以澄清。
  5. 💡 除了本地运行,租用GPU也是一种选择
    • 解释:考虑到前期投资、家庭可用电线等因素,租用GPU在成本效益和软件模型使用上有优势。

金句与有趣评论

  1. “😂 Linkpharm2: Plenty do, others use exl2 or other formats. Use the one best for you.”
    • 亮点:简洁地指出存在多种格式选择,关键是选择适合自己的。
  2. “🤔 jacek2023: Yes, I use gguf because they are easy to store, I don’t understand why other formats are using folders instead single files.”
    • 亮点:表达了对gguf格式易于存储的认可,同时对其他格式使用文件夹表示疑惑。
  3. “👀 Durian881: I used to run gguf but changed to MLX due to significant improvements recently.”
    • 亮点:展示了因格式本身的改进而发生格式转换的情况。
  4. “😂 Ill_Yam_9994: For my use cases, speed beyond reading speed isn’t necessary so I haven’t seen any point going to EXL or whatever.”
    • 亮点:从自身使用需求出发,阐述不需要更快速度格式的观点。
  5. “🤔 henk717: 其依赖关系比其他一些格式更合理。对于GGUF你可以安装一个独立程序。其他格式如safetensors通常依赖于pytorch ,这通常需要6GB的依赖项。”
    • 亮点:对比了gguf格式和其他格式在依赖关系上的差异。

情感分析

总体情感倾向为积极,大家主要是在分享知识和经验。主要分歧点在于不同格式的优劣比较以及是否大多数人使用gguf格式。可能的原因是大家的硬件设备、使用需求、对格式的了解程度等存在差异。

趋势与预测

  • 新兴话题:对MLX格式的进一步探索(如MLX.cpp用于CPU推理等)以及不同量化方式的比较。
  • 潜在影响:有助于人们更好地选择适合自己的LLMs运行格式,提高运行效率,也可能促使相关软件和格式进一步优化以满足更多用户需求。

详细内容:

标题:关于本地运行 LLM 格式选择的热门讨论

在 Reddit 上,一则题为“Do most people run LLMs in gguf format locally?”的帖子引发了热烈讨论。该帖获得了众多关注,评论数众多。帖子主要探讨了人们在本地运行大语言模型(LLMs)时对格式的选择,特别是 gguf 格式。

讨论焦点与观点分析: 有人认为 gguf 格式易于存储和使用,比如有人说“我使用 gguf 是因为它们易于存储,我不理解为什么其他格式使用文件夹而不是单个文件。”还有人提到其在某些方面具有较好的支持,如“我认为 gguf 在 KoboldCPP、ollama 等方面有更好的支持。” 然而,也有用户指出其他格式的优势。比如,“exl2 速度快且很棒,gguf 易于量化且通用。” 有人分享了个人经历,如“我处于‘你不知道你不知道’的情况。GGUF 是我知道可以使用像 LMStudio 这样的程序运行的唯一格式。对于其他格式,设置似乎很麻烦。” 对于不同格式的性能,大家看法不一。有人说“为了能够运行实际上的大型模型(70b 及以上),在量化级别(如 Q5 及以上)不会让它们变得太笨。”但也有人反驳“能运行 70b 的显卡价格没那么贵。” 关于 gguf 格式的适用场景,有人表示“当模型不完全适合 VRAM 时,使用 GGUF 才有意义。”

讨论中的共识在于不同格式各有优劣,选择取决于个人需求和硬件条件。特别有见地的观点如“GGUF 格式允许许多特定的量化选择,服务于大多数量化质量的需求。”

总之,Reddit 上关于本地运行 LLMs 格式的讨论丰富多样,为大家提供了多方面的思考和参考。