大家对我是很大的激励，所以我这样做了。在推文中我说的“开源”指的仅是开源代码和公开权重模型。这里是关于我这么做的一些想法：https://andykonwinski.com/2024/12/12/konwinski - prize.html。很乐意回答问题。

安迪表示将给予首个在无污染SWE - bench上达到90%的开源AI 100万美元，这一话题引发了众多网友的讨论。大家围绕奖励的可靠性、竞赛的技术细节、开源AI达成目标的难度等多方面展开讨论，既有积极支持和好奇探究的，也有提出质疑和担忧的，整体氛围较为活跃多样。

👍 对百万美元奖励开源AI的举措表示赞赏
- 支持理由：认为有助于推动创新，是很棒的激励举措。
- 反对声音：无。
🔥 对网络上声称给予高额奖金的行为表示怀疑
- 正方观点：不清楚发帖者身份，难以相信会真的给钱。
- 反方观点：查询到发帖者身份背景后认可其可靠性。
💡 认为仅要求代码和模型权重可能导致操纵基准测试
- 解释：即使基准测试内容不公开，也可通过调整训练数据来提高分数，使模型可能仅擅长基准测试。
🤔 质疑100万美元对于相关工程价值而言是低报酬
- 解释：考虑到这样的工程所具有的价值，这个金额并不高。
- 反对声音：安迪认为开源产生的价值会远超支付的现金，这是额外奖励。
😕 认为当前的基准测试是没有意义的
- 解释：因为合成数据已经被污染，LLMs存在各种问题。

“😂 sleepy_roger: How about just give me 10k and we can say we tried?”
- 亮点：以一种诙谐的方式向发帖者索要奖金。
“🤔 Bjorkbat：Mildly curious on how this benchmark is contamination free.”
- 亮点：提出关于基准测试无污染的好奇点。
“👀 Pro - editor - 1105: who even are you, and how do I know you are going to give the money?”
- 亮点：直接表达对网络悬赏的怀疑。
“😎 Louistiti：Very appreciate the initiative here!”
- 亮点：表达对百万美元激励举措的赞赏。
“🤣 I’ll give $1M to the first person that gives me $10M”
- 亮点：用荒诞的逻辑调侃原帖的奖励设定。

总体情感倾向较为复杂，既有积极的赞赏和好奇，也有消极的怀疑和担忧。主要分歧点在于对安迪提供百万美元奖励这一举措的可信度、奖励金额是否足够、开源AI达成目标的可能性以及基准测试的合理性等方面。可能的原因是大家从不同的角度出发，如经济利益、技术可行性、对开源项目的期望等。

详细内容：

标题：100 万美元悬赏开源 AI 挑战引发 Reddit 热议

在 Reddit 上，一个题为“我将向在无污染的 SWE-bench 上达到 90%准确率的首个开源 AI 提供 100 万美元——xoxo Andy”的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

帖子主要内容为 Andy 发起这一悬赏挑战，明确表示只接受开源代码和开源权重模型，同时提供了一些关于挑战的思考和相关链接。

这一话题引发了众多方向的讨论，包括如何确保测试无污染、挑战的难度和可行性、奖励的吸引力、对开源社区的影响等。核心问题是这个悬赏挑战是否能够真正推动开源 AI 的发展，以及如何保证其公平性和有效性。

在讨论焦点与观点分析方面，有人认为创建私人验证数据集是避免偏差的有效方法；有人对使用未来数据进行测试的想法表示好奇，同时也指出 90%的准确率目标过高，且担心团队可能更倾向于将产品商业化而非参与挑战；还有人提出应衡量问题的新颖性和差异。

有人分享自己的相关经历，比如从 2017 年就开始致力于开源个人助理项目。也有人好奇应用层面的提交是否可行。

一些人对挑战的规则和要求提出疑问，比如是否允许非商业或仅用于研究的模型参与，是否对资源使用有限制等，Andy 对此进行了相应的解释和说明。

有人认为这个挑战很棒，可能会带来很多价值，但也有人觉得奖金数额相对较低，或者认为当前的基准测试存在问题。

总之，Reddit 上关于这个悬赏挑战的讨论丰富多样，展现了大家对开源 AI 发展的关注和思考。

详细内容：#