原贴链接

我说出来了。准备好叉子和火把吧,但我坚持我的观点。

我们不再看到尝试做不同事情的新颖创新模型。如今,所有公司关心的都是随机数字,这些数字对我——一个普通消费者——毫无意义。它们并不意味着模型在任何方面都是好的,尤其是在通用用例中。大公司会拿Chat GPT生成的纯合成数据,塞进他们的模型里,然后就完事了。但我们为什么要另一个Chat GPT,它除了比原版更差之外,做的是完全相同的事情?因为它受限于规模。

如果一个人类评估高的模型拒绝表现得像一个正常人,并且不会告诉你它会做出什么选择,因为“作为一个AI模型,它不被允许这样做”,那有什么好处呢?如果它厌倦了废话,为什么它不告诉我“去你的”!或者它的写作方式简直就是垃圾,纯粹的GPT主义地狱。如果模型拒绝输出代码,因为它们不被允许提供现有解决方案,那么编码模型有什么意义呢?或者它的上下文不够高,无法处理你的整个代码并检查错误?

对于我们特定的用例,选择一个不同于巨头的模型不是更有意义吗?我相信大多数公司也在寻找这样的东西。

我知道——我自己主要使用模型进行创意写作和角色扮演,但我仍然是社区中非常活跃的一部分,我绝对喜欢看到LLMs的进化。我喜欢查看新的研究论文,了解新的架构,弄清楚新的采样器。这不再只是我的爱好。AI已经成为我生活的重要部分。除了模型评论,我甚至做了一些提示委托!

看到我们正在走向何方,我感到很痛苦。它开始感觉不再是一个由改进驱动的领域,我们所有人都在黑暗中摸索,没有任何线索我们在做什么,但有些事情只是有效,所以我们坚持它们。一起。这不再关乎那些充满激情的少数人试图创造一些酷而独特的东西,也许甚至有点傻,但嘿,至少我们以前没有?

现在,一切都关乎那些该死的数字。所有的希望都在微调和合并者身上。牢骚发完了。我会自己走向火刑柱。

讨论总结

本次讨论主要围绕“基准测试是否阻碍了模型的发展”这一主题展开。大多数评论者认为,当前的基准测试已经变得无用,甚至有害,因为它们被过度游戏化,无法真实反映模型的实际表现。评论者普遍认为,用户应根据自己的实际使用体验来评价模型,而不是盲目依赖基准分数。此外,讨论还涉及市场营销和学术研究中对基准分数的滥用,以及基准评测中对风格和格式控制的误解。总体而言,评论者呼吁行业应该更多地关注模型的实际应用和创新,而不是仅仅追求数字上的提升。

主要观点

  1. 👍 基准测试已经变得无用,甚至有害

    • 支持理由:基准测试容易被游戏化,无法真实反映模型的实际表现。
    • 反对声音:基准测试在模型评估中具有一定的作用,但需要更新和改进。
  2. 🔥 用户应根据自己的实际使用体验来评价模型

    • 正方观点:基准分数不能替代实际使用体验,用户应更多依赖自己的感受。
    • 反方观点:实际使用体验难以量化,需要基准测试作为参考。
  3. 💡 市场营销和学术研究中对基准分数的滥用

    • 解释:基准分数被用于营销和学术研究,导致模型开发者过于关注分数而非实际应用效果。
  4. 🌟 基准测试应直接反映用户的偏好

    • 解释:基准测试应更多关注用户的实际需求和偏好,而不是替代性指标。
  5. 🚀 行业应更多地关注模型的实际应用和创新

    • 解释:当前的模型发展方向令人失望,缺乏真正的创新和多样性。

金句与有趣评论

  1. “😂 dubesor86:Chasing big benchmarks to use the scores for marketing is a very corporate and expected behavior & Goodhart’s law is as relevant as ever.”

    • 亮点:指出了基准测试在营销中的滥用现象。
  2. “🤔 Meryiel:I’ve been doing reviews solely on my own in-practice use for a while now. I only go by people recommendations, too. Never trusted the numbers since the models can be trained solely for achieving specific scores.”

    • 亮点:强调了实际使用体验的重要性,不盲目信任基准分数。
  3. “👀 -p-e-w-:The way information is presented is obviously incredibly important, and by disregarding it, you are ignoring a crucial aspect of model quality.”

    • 亮点:指出了信息呈现方式对模型质量的重要性。
  4. “🌈 Effective-Painter815:Dude, we just had a model hallucinate an entire game of doom?”

    • 亮点:幽默地指出了模型在某些情况下的荒谬表现。
  5. “🔍 ResearchCrafty1804:I disagree that benchmarks hurt the model progression. We need a systematic methodological approach to compare and evaluate the various models in order to move on the right direction.”

    • 亮点:提出了基准测试在模型发展中的必要性。

情感分析

讨论的总体情感倾向较为负面,主要分歧点在于基准测试的实际作用和影响。大多数评论者认为基准测试阻碍了模型的创新和实际应用,而少数评论者则认为基准测试在模型评估中具有一定的作用,但需要更新和改进。这种分歧可能源于对模型发展方向的不同期望和对基准测试的不同理解。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括如何改进基准测试方法,以更好地反映模型的实际应用能力,以及如何鼓励模型在特定应用场景中的独特表现。
  • 潜在影响:对相关领域或社会的潜在影响包括推动模型开发者更多关注实际应用和用户体验,减少对基准测试的过度依赖,从而促进模型的多样性和创新性。

详细内容:

标题:Reddit热议“基准测试是否正在损害模型发展”

近日,Reddit上一篇题为“Benchmarks are hurting the models”的帖子引发了众多网友的热烈讨论。该帖子获得了极高的关注度,众多用户纷纷发表了自己的看法。

帖子的主要内容为:发帖者认为如今模型发展过于注重随机数字的基准测试,而不再追求创新和独特性。大公司常利用Chat GPT生成的数据填充模型,导致模型同质化。且部分模型在实际应用中表现不佳,如拒绝提供代码、处理上下文能力不足等。发帖者还表示自己热衷于关注LLM的发展,但对当前的发展趋势感到失望。

讨论焦点主要集中在基准测试对模型发展的影响。有人认为较大的基准测试已变得越来越无用,如[u/dubesor86]提到“我认为较大的基准测试已经且正变得越来越无用,甚至那些曾经非常有助于获得大致概念的基准测试(例如直到大约半年前还很有用的lmsys,当时系统明显被操纵了)。” 也有人像[u/Meryiel]一样,坚持自行根据实际使用情况进行评估和排名,并分享给他人。

同时,存在不同观点。[u/ResearchCrafty1804]表示:“我不同意基准测试损害了模型的发展进程。我们需要一种系统的方法来比较和评估各种模型,以朝着正确的方向前进。也许基准测试需要更新,因为很多都没有反映现实世界的使用情况。但基准测试是有用的。”

还有人认为基准测试难以衡量某些方面,如[u/jollizee]指出:“我们仍然没有好的长上下文基准测试。很明显,即使是SOTA模型在超过约5000个标记后也会降级,尽管声称有大得多的上下文。没有东西能衡量这一点。”

讨论中的共识在于大家都认为基准测试存在问题,需要改进或采取更全面、实用的评估方式。特别有见地的观点如[u/Chongo4684]提出的“本质上他说通用人工智能要擅长很多事情。所以在很多事情上测试它(很多不同的测试)。然后尝试找到人类能做好但它做不好的边缘情况,即使它通过了所有这些测试至少和人类一样好。当我们不再能够找到边缘情况并且它通过了所有这些测试时,它很可能就是通用人工智能。”丰富了关于如何评估模型的讨论。

究竟基准测试是在促进还是阻碍模型的发展,目前尚无定论。但这场讨论无疑让我们对模型评估的方式有了更深入的思考。