如果像lmarena.ai这样的排行榜连接的是闭源模型的API,而非直接访问模型,那么操纵这个系统就不难。你要做的就是用某些独特的行为来训练模型,这样就能将它与其他模型区分开来。例如,你可以告诉它,在一个会话中,当用户第一次询问关于阿兰·图灵的问题时,回答应以彩虹、苹果、彩虹表情符号结尾。然后你可以付钱给实习生,让他们去排行榜上问一堆与图灵相关的问题。给回答中有彩虹、苹果、彩虹的模型点赞。更好的做法是,让一些机器人为你做这件事。这甚至不需要很多资源,因为只需几千票就能影响一个模型的排名。你得使用VPN并采取其他措施,让每个会话看起来像是不同用户,但这也很容易做到。考虑到这里涉及数十亿美元的利益,很可能这种以及其他更复杂的技术正在被使用。这也是我们只应该信任开源模型的另一个原因。
讨论总结
原帖提出闭源在排行榜系统中可能被利用作弊,如通过特定方式训练模型来操纵排行榜结果。评论者们从多个角度展开讨论,有以安卓制造商类似作弊行为举例的,有分析大公司作弊可能性与风险的,有怀疑所有基准测试都存在作弊情况的,还有对原帖观点进行反驳的,总体氛围是理性探讨且有不同观点的碰撞。
主要观点
- 👍 闭源在排行榜系统中容易被利用作弊
- 支持理由:原帖详细阐述了利用闭源模型的特殊训练方式可操纵排行榜结果,如特定问题的特殊回答标记来刷票。
- 反对声音:部分评论者反驳,如认为lmarena没有被真正刷榜。
- 🔥 大公司不会冒险在排行榜作弊
- 正方观点:风险高,如员工揭发、被发现后面临大量负面报道等。
- 反方观点:有评论者怀疑所有基准测试都可能存在作弊情况,暗示大公司也可能作弊。
- 💡 开放权重无法防止排行榜作弊
- 解释:即使开放训练数据等细节,也依赖公司不作弊的信任因素,并且可以用AI识别开源模型特性作弊。
- 💡 存在比原帖所说更简易的操纵排行榜方式
- 解释:如果使用API,可以直接匹配响应来投票,无需训练模型。
- 💡 lmarena没有被真正刷榜
- 解释:人们在lmarena上多问简单问题,它在回答日常常见问题方面表现不错,人们误解了它。
金句与有趣评论
- “😂 Android phone manufacturers used to do something like this, they would detect that a benchmark app was running and disabled the thermal limits on the soc inflating benchmarks.”
- 亮点:用安卓制造商曾经的作弊行为类比闭源在排行榜作弊,形象生动。
- “🤔 我认为这是可能做到的,但不是已经做了的事情。”
- 亮点:表达了对闭源作弊可能性的理性思考。
- “👀 我假设基本上所有的基准测试都会发生这种情况,但我没有任何证据。”
- 亮点:反映出对所有基准测试可能存在作弊情况的怀疑态度。
- “🤔 我不认为开放权重能防止这种情况,而且开放训练数据等细节,我认为仍然依赖于公司不会这样作弊的某种信任因素。”
- 亮点:提出了新的观点,从不同角度看待防止排行榜作弊的因素。
- “👀 LMarena is not really gamed.”
- 亮点:直接反驳原帖关于lmarena被刷榜的观点。
情感分析
总体情感倾向是较为理性和中立的。主要分歧点在于闭源是否真的被用于在排行榜作弊以及lmarena是否被刷榜。可能的原因是大家从不同的角度看待问题,有的从理论上分析闭源的可操作性,有的从实际情况判断lmarena是否存在刷榜现象。
趋势与预测
- 新兴话题:关于如何构建一个可靠的模型和基准的生态系统以及如何提高用户群体的监督作用。
- 潜在影响:如果闭源在排行榜作弊现象真的存在且被证实,可能会影响人们对闭源模型以及相关排行榜的信任度,促使相关行业加强监管和规范。
详细内容:
标题:关于利用闭源作弊排行榜的热门讨论
在 Reddit 上,一则题为“ There are probably a dozen ways to use closed source to cheat leaderboards. This is one of them.”的帖子引起了广泛关注。此帖指出,如果像 lmarena.ai 这样的排行榜连接到闭源模型的 API 而非直接访问模型,那么操纵系统将并非难事。比如,可以训练模型具有某些独特行为,让其与众不同,然后通过付费让实习生或使用机器人进行特定操作来影响排名。该帖获得了众多点赞和大量评论,引发了激烈的讨论。
讨论的焦点主要集中在这种作弊行为是否真的存在以及如何防范。有人举例称,安卓手机制造商曾检测到基准测试应用运行时就解除芯片的热限制以提高测试成绩,还有人提到网络服务提供商对测速服务器解除限速。有人认为这种作弊是可能的,但像谷歌、OpenAI 等盈利公司不太会这么做,因为风险高,可能有员工告密或被排行榜创建者发现。但也有人反驳,指出 OpenAI 曾为数学基准提供资金并借此给自己的模型评分,可见其为保持领先地位不择手段。还有人表示,在整个 IT 行业,试图打破规则和改变模式是常态,很多上层管理人员道德缺失,作弊现象屡见不鲜。也有人认为公司内部一些人为了个人利益可能会操纵模型排名,而且很难追溯到个人。有人觉得开放权重并不能防止这种情况,关键在于建立活跃且知情的用户社区。
总之,关于是否存在利用闭源操纵排行榜的行为,大家各执一词,争论不休。但无论如何,这一话题都引发了人们对行业诚信和监管的深入思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!