原贴链接

简而言之:构建了一个免费工具,用于比较OpenAI、Anthropic、Google、Replicate、Together AI、Nebius和其他15个以上供应商的LLM价格和性能。可在此处尝试:[https://whatllm.vercel.app/]。上周我的简单LLM比较工具达到2000多名用户后,我深入研究了社区的真正需求。结果是?利用每个主要供应商的真实性能数据进行了全面重建。新版本可让您:找到任何特定模型最便宜的供应商(这里有一些惊人的发现);对比质量得分和价格(剧透:昂贵≠更好);根据您真正关心的内容进行筛选(上下文窗口、速度、质量得分);在交互式图表中查看一切;发现您可能不知道的替代供应商。解决的问题包括:哪个供应商提供最便宜的Claude/Llama/GPT替代品?Anthropic相对于Mistral真的值得高价吗?为什么我为同一个模型多付了3倍的钱?数据的主要发现:1. 价格差异,例如Qwen 2.5 72B质量得分为75,价格约为0.36美元/百万令牌,Claude 3.5 Sonnet质量得分为77,成本为6.00美元/百万令牌,质量仅低2分但便宜94%。2. 性能洞察,例如Cerebras的Llama 3.1 70B以0.60美元/百万令牌的价格每秒输出569.2个令牌,而亚马逊Bedrock的版本价格为0.99美元/百万令牌但每秒仅输出31.6个令牌,相同模型速度快18倍且价格低40%。v2的新功能:交互式价格与性能图表;200多个模型变体的质量得分;实际速度和延迟数据;上下文窗口比较;不同使用模式的成本计算器。一些惊人的发现:“高端”供应商并不总是更好 - 数据表明;几个新供应商在价格和速度上优于老牌供应商;一旦知道使用案例,价格/性能的最佳点其实不难想象。技术细节:数据源:[artificial - analysis.com];更新时间:2024年10月;涵盖模型:GPT - 4、Claude、Llama、Mistral等20多个;供应商:大多数主要平台和新兴平台(还会增加一些)。可在此处尝试:[https://whatllm.vercel.app/]

讨论总结

原帖作者分享自己构建的LLM比较工具,包括功能、解决的问题、新特性和关键发现等内容。评论者大多对工具表示认可,也有部分提出了质疑和改进建议,如对质量指标的科学性、数据来源链接、工具交互操作、图表刻度等方面的看法,整体讨论氛围积极且富有建设性。

主要观点

  1. 👍 认可LLM比较工具的价值
    • 支持理由:很多评论者表示工具很酷、有用、是个好主意、具有变革性等。
    • 反对声音:无。
  2. 🔥 原帖质量指标存在问题
    • 正方观点:仅依据质量分数差值小但价格差大来比较模型不科学,单一的“质量”指标过于笼统。
    • 反方观点:无。
  3. 💡 工具使用场景影响性价比判断
    • 不同模型的性价比是否值得取决于具体的使用场景。
  4. 💡 应添加模型大小筛选功能
    • 有助于提升工具功能,方便用户筛选闭源模型。
  5. 💡 部分工具体验问题需要改进
    • 如“最大价格”滑块默认值、下拉菜单无滚动指示等影响使用体验。

金句与有趣评论

  1. “😂 KingPinX:this is pretty cool, thanks for making this available :)”
    • 亮点:简洁表达对工具的积极态度。
  2. “🤔 那(质量分数仅低2分但价格便宜94%)根本无法说明模型的任何情况。这只意味着你的质量指数在区分模型方面很糟糕。”
    • 亮点:直接指出原帖中质量指标比较方式的不足。
  3. “👀 qlut:Dude that’s a game changer, I’m always lost trying to find the best LLM provider.”
    • 亮点:表明工具对寻找LLM提供商困难者的重要性。
  4. “😂 MTBRiderWorld: super”
    • 亮点:简单一个单词表达积极认可态度。
  5. “🤔 Can you please add model size filter (for closed source, you can split them into 2 - 3 categories: Tier 1 with largest models - Tier 3 their smallest models).”
    • 亮点:明确提出工具改进的具体建议。

情感分析

总体情感倾向是积极的,大部分评论者认可这个LLM比较工具。主要分歧点在于原帖中的质量指标是否科学合理,可能的原因是不同人对模型质量评估的标准和方式有不同的理解,并且不同的使用场景也会影响对模型质量的判断。

趋势与预测

  • 新兴话题:可能会围绕如何改进质量指标、提升工具的用户体验以及更多潜在的模型比较维度展开后续讨论。
  • 潜在影响:如果工具不断改进,将有助于用户更精准地选择LLM提供商,影响LLM市场的竞争格局,也可能促使更多类似工具的出现或者改进。

详细内容:

标题:神奇的 LLM 比较工具,你可能为 API 多花了 50%!

在 Reddit 上,有一个引起众多关注的帖子。其标题为 “I built an LLM comparison tool - you’re probably overpaying by 50% for your API (analysing 200+ models/providers)”,截至目前已收获了众多的点赞和大量的评论。

原帖主要介绍了作者开发的一款免费的 LLM 价格和性能比较工具,涵盖了 OpenAI、Anthropic、Google 等 20 多个提供商的 200 多种模型。用户可以通过该工具找到特定模型的最廉价提供商、比较质量得分与价格、根据自身实际需求筛选,并能通过交互式图表查看所有内容以及发现可能不了解的替代提供商。

帖子引发了广泛的讨论,主要围绕价格差异、性能表现、质量评估以及工具的改进等方面。

核心问题在于:这款工具所提供的价格和性能比较是否准确可靠,以及如何更好地满足不同用户在不同使用场景下的需求。

在讨论中,有人指出 Qwen 2.5 72B 质量得分 75,价格约为 0.36 美元/M tokens,而 Claude 3.5 Sonnet 质量得分 77,却花费 6 美元/M tokens,价格相差 94%但质量只差 2 分。还有人举例 Cerebras 的 Llama 3.1 70B 输出 569.2 tokens/秒,价格为 0.6 美元/M tokens,而 Amazon Bedrock 的版本价格 0.99 美元/M tokens,输出却仅为 31.6 tokens/秒,同样的模型速度快 18 倍价格还低 40%。

对于质量评估,有人认为“Quality Index”这个指标比较模糊,也有人觉得仅用一个质量指标来概括所有模型不够准确,比如有人提出 Qwen-7B-Coder-Instruct 是 74 分,而 Qwen 72B 是 75 分,这让人感到困惑。

同时,也有不少用户对工具提出了改进建议。比如,有人认为应分析不同类型任务/提示的价格效率以及关键任务中成本差异是否值得;有人提出增加模型大小的筛选功能,还有人指出图表坐标轴的缩放不准确、下拉菜单没有滚动指示等问题。

总之,这款 LLM 比较工具虽然带来了便利,但在数据准确性和功能完善方面仍有很大的讨论和改进空间。