原贴链接

经过漫长的等待,我终于准备好发布UGI排行榜的新版本了。在这次更新中,我专注于自动化我的测试流程,这使我能够增加测试问题的数量,拓展到不同的测试科目,并拥有更精确的排名。你可以在排行榜的‘关于’部分找到并阅读每个基准。我建议大家尝试筛选模型,使其至少有大约15个自然智能(NatInt),然后看看哪些模型在每个政治轴上的得分最高和最低。有一些非常有趣的发现。注意事项:由于排行榜的重点略有改变,我决定重置模型提交的积压任务。我不再使用去审查(decensoring)系统提示(这种提示会让模型不受审查)。这件事没有明确的对错答案。最初我觉得使用它们会更好,因为这样可以更好地展示模型的真实潜力,而且我认为不应该因为模型不知道自己应该怎么做而惩罚它们。但另一方面,人们不想为了得到好的结果而被要求使用某种系统提示。还有一个问题是,如果人们最终使用了去审查系统提示,很可能不是我用于测试的那个,这就可能导致人们得到不同的结果。我把本地模型的测试从Q4_K_M.gguf改为Q_6_K.gguf。我没有升级到Q8是因为性能提升相当小,不值得模型大小显著增加。最后我移除了写作风格和评级预测排名。对于写作风格,它对模型的排名方式非常依赖于我手动给故事评级,这样回归模型才能理解人们倾向于喜欢的词汇统计。我不再有时间做这件事了(而且这是一种非常不可靠的模型排名方式),所以我尝试替换排名,但在Q6 70B +模型上测试足够数量的模型写作输出所需的计算量是不可行的。对于评级预测,自然智能(NatInt)似乎与之高度相关,所以似乎没有必要。

讨论总结

主题围绕UGI - Leaderboard的更新展开。多数用户表达了对作者的感谢,也有人提出如模型分数变化、基准测试请求关闭后是否重新提交、未发现某些模型等疑问,还有人质疑模型的政治倾向判定结果,同时也有用户分享了关于排行榜中模型左派倾向的有趣发现。

主要观点

  1. 👍 UGI - Leaderboard是最有用的排行榜之一
    • 支持理由:它关注到大型语言模型无故拒绝回答会影响在自动处理文本等流程中的可用性这一其他基准测试忽视的细节。
    • 反对声音:无。
  2. 🔥 对专有模型UGI分数比以前更高存在疑问
    • 正方观点:很多专有模型分数变高,记得Anthropic模型以前分数很低,现在的变化让人疑惑。
    • 反方观点:无。
  3. 💡 对UGI - Leaderboard将Gemini判定为左翼表示质疑
    • 认为判定依据中经济栏和文化栏混合平均不是好的指标。
    • 原作者解释政治倾向栏计算依据,但也认同应平衡类别权重。
  4. 🤔 会想念写作风格指标的作用
    • 因为通过这个指标能发现一些原本不会关注的很好的模型。
    • 无反对声音。
  5. 👀 排行榜中的模型大多倾向左派
    • 这种左派倾向并不特别令人意外,但很有趣。
    • 无反对声音。

金句与有趣评论

  1. “😂 在我的观点里,这是最有用的排行榜之一,因为如果一个大型语言模型(LLM)由于未知原因一直任意拒绝回答,它立即就会在文本自动处理和任何其他自动化工作流程中变得毫无用处。”
    • 亮点:强调了UGI - Leaderboard关注到其他基准测试忽视的重要细节,突出其有用性。
  2. “🤔 为什么很多专有模型的UGI分数比以前更高了呢?”
    • 亮点:直接提出很多用户可能关心的分数变化疑问。
  3. “👀 Billy462: Why does this say that all the models are left - wing? Gemini for example is 45.8% on "Econ", making it centre - right not a socialist.”
    • 亮点:明确对模型政治倾向判定结果提出质疑并举例说明。
  4. “💡 And I will miss the writing style - thanks to it I was able to find some really nice models I wouldn’t bother with otherwise.”
    • 亮点:阐述了写作风格指标的独特作用。
  5. “😄 RandumbRedditor1000:Interesting, almost every model on there leans left.”
    • 亮点:指出排行榜中模型的左派倾向这一有趣现象。

情感分析

总体情感倾向是正面的,多数用户对UGI - Leaderboard的更新表示感谢。主要分歧点在于模型的判定结果,如专有模型分数变化原因、Gemini的政治倾向判定等,可能是因为用户对排行榜的测试标准和计算方式存在不同理解。

趋势与预测

  • 新兴话题:可能会引发关于如何更科学地判定模型的政治倾向、如何平衡类别权重的后续讨论。
  • 潜在影响:如果能改进模型判定标准,可能会影响相关模型在不同领域的应用与评估,对人工智能领域的模型研究和发展有一定的推动作用。

详细内容:

《UGI-Leaderboard 重制版引发的热议》

在 Reddit 上,一则关于 UGI-Leaderboard 重制版的帖子引起了广泛关注。原帖UGI-Leaderboard Link详细介绍了这一重制版本。作者表示,经过漫长等待,终于发布了新版本。此次更新注重自动化测试流程,增加了测试问题数量,拓展了测试科目,并实现了更精确的排名。还提到了一些相关的注意事项,如重置模型提交的积压、不再使用某些系统提示等。此帖获得了众多点赞和评论,大家主要围绕着新版本的诸多变化展开了讨论。

在讨论中,有人认为这是最有用的排行榜之一,因为如果语言模型随意拒绝回答问题,会使其在自动处理文本和其他自动化工作流程中毫无用处,且普遍的审查和事实更改是不好的。也有人对一些专有模型的 UGI 得分比以前更高提出疑问,作者解释这可能部分是由于取消了某些系统提示。还有人表示会怀念写作风格排名,询问是否有旧数据的备份,作者回应可以在排行榜文件中找到。有人发现自己的基准测试请求被关闭,询问是否需要重新提交。对于政治倾向的衡量,有人认为将多个类别平均的方式存在误导,作者也承认应更好地平衡类别权重。此外,几乎每个模型都倾向于左派这一现象也引发了讨论。

总之,这次 UGI-Leaderboard 的重制版本在 Reddit 上引发了热烈讨论,大家从不同角度发表了自己的看法,既有对新版本的肯定,也有对一些细节的质疑和建议。