也许这是个愚蠢的问题，抱歉。

讨论总结

本次讨论围绕“是否大多数人在本地以gguf格式运行大型语言模型（LLMs）”这一问题展开。评论者们分享了各自在本地运行LLMs时对格式的选择及理由，涉及gguf、exl2等多种格式，讨论了不同格式在存储、速度、硬件适配、量化等方面的特点，还提及了不同程序对格式的支持情况，整体氛围积极且富有技术交流氛围。

主要观点

👍 多数人可能使用gguf格式运行LLMs
- 支持理由：很多评论者表示自己使用gguf格式，部分软件使用该格式，且在过去一年它成为默认格式等。
- 反对声音：有评论者表示自己使用exl2等其他格式，或指出在特定条件下其他格式更优。
🔥 不同格式各有优劣
- 正方观点：gguf易于存储、对脚本编写友好、在一些软件中有较好支持、可在显存不足时扩展到内存等；exl2速度快。
- 反方观点：gguf在多GPU设置下性能可能下降、若GPU不能容纳全部内容且溢出到内存时速度会很慢；exl2可能在某些功能上有限制（如不支持某些操作）。
💡 格式选择受多种因素影响
- 解释：硬件设备（如是否有足够的显存、内存，是否为专用GPU等）、运行需求（如CPU推理还是GPU推理）、软件支持情况、是否易于操作等因素都会影响格式的选择。
💡 存在对格式相关概念的误解或不了解情况
- 解释：如有人分不清ggml和gguf，通过交流才得以澄清。
💡 除了本地运行，租用GPU也是一种选择
- 解释：考虑到前期投资、家庭可用电线等因素，租用GPU在成本效益和软件模型使用上有优势。

金句与有趣评论

“😂 Linkpharm2: Plenty do, others use exl2 or other formats. Use the one best for you.”
- 亮点：简洁地指出存在多种格式选择，关键是选择适合自己的。
“🤔 jacek2023: Yes, I use gguf because they are easy to store, I don’t understand why other formats are using folders instead single files.”
- 亮点：表达了对gguf格式易于存储的认可，同时对其他格式使用文件夹表示疑惑。
“👀 Durian881: I used to run gguf but changed to MLX due to significant improvements recently.”
- 亮点：展示了因格式本身的改进而发生格式转换的情况。
“😂 Ill_Yam_9994: For my use cases, speed beyond reading speed isn’t necessary so I haven’t seen any point going to EXL or whatever.”
- 亮点：从自身使用需求出发，阐述不需要更快速度格式的观点。
“🤔 henk717: 其依赖关系比其他一些格式更合理。对于GGUF你可以安装一个独立程序。其他格式如safetensors通常依赖于pytorch ，这通常需要6GB的依赖项。”
- 亮点：对比了gguf格式和其他格式在依赖关系上的差异。

情感分析

总体情感倾向为积极，大家主要是在分享知识和经验。主要分歧点在于不同格式的优劣比较以及是否大多数人使用gguf格式。可能的原因是大家的硬件设备、使用需求、对格式的了解程度等存在差异。

趋势与预测

新兴话题：对MLX格式的进一步探索（如MLX.cpp用于CPU推理等）以及不同量化方式的比较。
潜在影响：有助于人们更好地选择适合自己的LLMs运行格式，提高运行效率，也可能促使相关软件和格式进一步优化以满足更多用户需求。

详细内容：

标题：关于本地运行 LLM 格式选择的热门讨论

在 Reddit 上，一则题为“Do most people run LLMs in gguf format locally?”的帖子引发了热烈讨论。该帖获得了众多关注，评论数众多。帖子主要探讨了人们在本地运行大语言模型（LLMs）时对格式的选择，特别是 gguf 格式。

讨论焦点与观点分析：有人认为 gguf 格式易于存储和使用，比如有人说“我使用 gguf 是因为它们易于存储，我不理解为什么其他格式使用文件夹而不是单个文件。”还有人提到其在某些方面具有较好的支持，如“我认为 gguf 在 KoboldCPP、ollama 等方面有更好的支持。” 然而，也有用户指出其他格式的优势。比如，“exl2 速度快且很棒，gguf 易于量化且通用。” 有人分享了个人经历，如“我处于‘你不知道你不知道’的情况。GGUF 是我知道可以使用像 LMStudio 这样的程序运行的唯一格式。对于其他格式，设置似乎很麻烦。” 对于不同格式的性能，大家看法不一。有人说“为了能够运行实际上的大型模型（70b 及以上），在量化级别（如 Q5 及以上）不会让它们变得太笨。”但也有人反驳“能运行 70b 的显卡价格没那么贵。” 关于 gguf 格式的适用场景，有人表示“当模型不完全适合 VRAM 时，使用 GGUF 才有意义。”

讨论中的共识在于不同格式各有优劣，选择取决于个人需求和硬件条件。特别有见地的观点如“GGUF 格式允许许多特定的量化选择，服务于大多数量化质量的需求。”

总之，Reddit 上关于本地运行 LLMs 格式的讨论丰富多样，为大家提供了多方面的思考和参考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#