原贴链接

嘿，r/LocalLLaMA社区的朋友们！随着最近开源模型和基准测试的爆炸式增长，我注意到很多新手都在努力理解这一切。所以我构建了一个简单的“模型匹配器”来帮助初学者理解不同用例的关键所在。简而言之，在构建了两个流行的大语言模型价格比较工具（拥有4000多名用户），即WhatLLM和LLM API Showdown之后，我创建了一个新东西：LLM Selector。它是一个帮助你找到满足特定需求的完美开源模型的工具。目前正在对11个模型进行12个基准测试（并且还在增加）。在构建前两个工具时，我意识到：在考虑供应商或价格之前，人们首先需要找到合适的模型。随着最近的大量发布，为特定用例选择正确的模型变得异常复杂。基准测试的谜题：到处都是指标，包括技术方面的（HumanEval、EvalPlus、MATH、API - Bank、BFCL）、知识方面的（MMLU、GPQA、ARC、GSM8K）和沟通方面的（ChatBot Arena、MT - Bench、IF - Eval）。对于刚接触AI的人来说，不清楚哪些指标对他们的特定需求重要。一个简单的方法：该工具不是深入复杂的比较，而是1. 按用例对基准测试进行分组；2. 主要指标的权重设为次要指标的2倍；3. 根据基本要求（延迟、上下文等）进行调整；4. 对分数进行归一化以便于比较。例如创意写作用例：让我们分解一个真实的比较，输入为用例：内容生成，要求：长上下文支持，工具的分析方式为1. 主要指标（权重为2倍）： - MMLU：显示知识深度 - ChatBot Arena：写作能力；2. 次要指标（权重为1倍）： - MT - Bench：语言质量 - IF - Eval：遵循指令。最佳结果为1. Llama - 3.1 - 70B（分数：89.3），MMLU：86.0%，ChatBot Arena：1247 ELO，优势：知识/创造力平衡；2. Gemma - 2 - 27B（分数：84.6），MMLU：75.2%，ChatBot Arena：1219 ELO，优势：高效性能。重要提示：版本1包含的模型有限（很快会增加更多）；基准测试不等于实际性能（这只是一个示例计算）；你的结果可能会有所不同；有经验的用户：可将此作为起点；目前仅针对开源模型；目前只添加了一个API提供商，将添加之前应用中的提供商并将它们全部整合。试用链接：https://llmselector.vercel.app/。由v0+Vercel+Claude构建。分享你的经验：我接下来应该添加哪些模型？哪些功能最有帮助？你目前如何选择模型？

讨论总结

原帖作者介绍了自己构建的LLM Selector工具，旨在帮助用户根据特定需求找到合适的开源模型。评论者们的反应多样，有部分人遇到了使用问题如访问超时、工具操作不灵活等，但也有很多人认可这个工具对新手很有帮助或者认为工具的创意很棒。同时，大量评论围绕工具的改进提出了各种建议，例如增加模型种类、完善功能、改变结果呈现方式等。

主要观点

👍 原帖内容对新手有帮助
- 支持理由：多位新手用户表示该工具能帮助他们在众多模型中做出选择。
- 反对声音：无。
🔥 工具存在功能问题
- 正方观点：如选择无回退功能、结果与提问功能设置不一致、按钮位置不合理等。
- 反方观点：部分用户未提及此类问题，可能未遇到或者觉得不影响使用。
💡 工具的模型种类应增加
- 解释：很多评论者指出某些模型未被包含，影响工具实用性。
💡 工具应考虑用户硬件限制进行筛选
- 解释：例如根据自身的RAM、VRAM或者GPU适配性来筛选模型。
💡 结果呈现方式需要改进
- 解释：如以表格形式呈现并包含评分和复选框，能一次性查看所有结果。

金句与有趣评论

“😂 ailee43: I think we killed it, getting a timeout when trying to access”
- 亮点：直接指出在使用工具时遇到的访问超时问题。
“🤔 singinst: Show which models were considered.”
- 亮点：简洁地提出工具应展示被考虑的模型这一重要问题。
“👀 roger_ducky: Please let us constrain searches based on how much RAM and VRAM we have in case we wanted to host it ourselves too.”
- 亮点：提出了根据硬件资源限制搜索的需求，考虑到自己托管内容的情况。
“😂 markboy124: I tried a few combinations but the majority of my results were permutations of Llama, I didnt not see much variety”
- 亮点：指出工具结果缺乏多样性的问题。
“🤔 SMarioMan: I wish this was just a table with some ratings and checkboxes, where we could view all of the results at once.”
- 亮点：提出了一种直观的工具结果呈现方式。

情感分析

总体情感倾向是积极的。主要分歧点在于工具的实用性和功能完善程度。部分用户认为工具已经很有帮助，而另一部分用户则指出工具存在各种问题，如模型种类少、功能不完善等。这可能是因为不同用户的需求和使用场景不同，对工具的期望也有所差异。

趋势与预测

新兴话题：可能会针对特定领域（如图像生成）开发类似的模型选择工具。
潜在影响：如果工具根据建议不断完善，可能会让更多用户方便地选择到合适的模型，促进开源模型在更多场景下的应用。

详细内容：

《探索 LLM 模型选择的热门讨论：为不同用例找到合适规模的模型》

在 Reddit 的 r/LocalLLaMA 板块，一则题为“LLM overkill is real: I analyzed 12 benchmarks to find the right-sized model for each use case 🤖”的帖子引起了广泛关注。该帖获得了众多点赞和大量评论，主要探讨了如何为不同用例选择合适规模的 LLM 模型。

原帖作者指出，随着开源模型和基准测试的增多，新手在选择时面临困惑。为此，作者创建了“LLM Selector”工具，旨在帮助初学者根据特定需求找到完美的开源模型。目前该工具正在分析 11 个模型的 12 项基准测试。

讨论的焦点集中在以下几个方面：有人认为大模型在处理具有复杂元素的故事、多角色处理等方面表现出色。比如，有人说：“在创意写作和 ERP 应用中，大模型表现突出。当故事有复杂元素，特别是需要推理构建独特的世界规则时，大模型更能胜任。它们在处理多个角色以及区分角色的言行思想方面也更出色。” 但也有人强调，在一定程度上，模型的效果取决于微调与训练。有人分享道：“最低我会选择约 30B 的模型。小模型常常表现得不太靠谱，根本不知道自己在说什么。一个训练良好的 30B 模型可能比一个调整不佳的 70B 模型更有趣。” 对于模型的选择，大家提出了各种建议。有人希望添加功能调用能力测试；有人希望能根据硬件规格进行筛选，比如内存和显存的限制；有人希望能增加对小模型的支持，包括一些不太常见但值得添加的模型；还有人希望能有更直观的模型对比表格。

讨论中的共识是，当前的模型选择工具对于新手有一定帮助，但仍需要不断完善和改进。特别有见地的观点如，要关注模型的许可要求，根据商业使用需求和内容审查程度进行筛选。

然而，讨论中也存在一些争议点。比如，有人质疑为何某些模型未被纳入推荐，为何总是推荐 Llama 系列，是否存在数据偏差等。

总的来说，这次关于 LLM 模型选择的讨论，为新手提供了宝贵的经验和建议，也为模型选择工具的进一步完善指明了方向。未来，期待看到更全面、更精准、更符合用户实际需求的模型选择方案。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#