原贴链接

每次有新模型发布时，人们很快就开始发布旋转六边形弹球、平台游戏、3D three.js环境、《我的世界》克隆之类的结果。这些看起来都很酷，但目前pygame和three.js并非制作完整的现实世界生产级软件的行业标准。我认为更好的评估方法是让大型语言模型（LLM）为虚幻（Unreal）/统一（Unity）引擎创建脚本，以使用插件程序化地生成游戏逻辑、资源、纹理等，在Web和原生软件开发工具包（如React Native、Flutter、Kotlin、Swift等）中创建前端，创建后端代码（Node.js）、数据库模式（SQL或NoSQL），并审核结果，看结果在性能、安全和功能方面是否达到行业标准。我们需要人们优先考虑像软件工程师（SWE）和高级本地工程师（HLE）这样的现实世界基准。

讨论总结

原帖作者厌倦看到用pygame/three.js对大型语言模型（LLMs）进行评估，认为应该采用如让LLMs为虚幻/统一引擎创建脚本等更符合行业标准的评估方式。评论者观点多样，部分理解原帖但认为pygame可初步测试能力，也有人强调应基于自身用例评估LLMs，还有很多人对原帖提出的“行业标准”以及新的评估方式的可行性进行质疑等，整体讨论氛围较为理性客观。

主要观点

👍 理解原帖观点，但认为pygame可用于初步能力测试。
- 支持理由：可以对LLMs进行粗略能力的初步测试，也是用户测试提示的好方法。
- 反对声音：无。
🔥 应基于自己的实际用例评估LLMs。
- 正方观点：不同模型在不同用例下有不同表现，不应被与自身需求无关的基准测试影响。
- 反方观点：无。
💡 认为有想法就应该行动而非抱怨。
- 解释：如果原帖作者有自己认为合理的评估基准，就应该停止抱怨并着手去做，而不是等待他人。
🤔 评估都会有特定的命运，问题解决后评估就不再重要。
- 解释：从宏观角度看待评估现象，认为一旦评估的问题被解决，评估本身就变得无关紧要了。
👀 软件行业大部分不是关于游戏编写的，原帖提及的“行业标准”有待考量。
- 解释：原帖以游戏相关的引擎等为行业标准，但实际上软件行业大部分工作与游戏编写无关，所以原帖的行业标准概念存在争议。

金句与有趣评论

“😂 While I can sympathize, I think that the pygame type stuff makes for a good smoke test of rough capabilities and can also be a good way for a user to test out prompting too.”
- 亮点：对原帖厌倦的pygame评估方式提出不同看法，认为其有一定价值。
“🤔 Everybody should evaluate LLMs based on their OWN REAL usecase.”
- 亮点：强调根据自身实际用例评估LLMs的重要性。
“👀 Do it, stop complaining and come up with what you consider a reasonable benchmark.”
- 亮点：针对原帖作者的抱怨给出行动性建议。
“😉 What you’re proposing would take a dramatically larger effort.”
- 亮点：指出原帖提议的评估方式需要更多努力。
“💡 I was just trying to get people’s attention off useless evaluation methods to something useful in real life.”
- 亮点：原帖作者解释自己的意图不是发牢骚，而是引导关注有用的评估方法。

情感分析

总体情感倾向较为理性中立。主要分歧点在于对原帖提出的评估方式以及“行业标准”概念的看法。原帖作者希望改变现有的评估方式，部分评论者理解但也有很多评论者提出质疑，原因是原帖的提议在实际操作、适用范围等方面存在一些考虑不周全的地方，比如新评估方式的难度、是否符合大多数人的需求等。

趋势与预测

新兴话题：C++的不同代码作为LLMs评估基准的探讨可能会引发后续讨论。
潜在影响：对LLMs评估方式的深入探讨可能促使相关人员更加科学合理地评估LLMs，进而影响LLMs在不同领域的应用。

详细内容：

标题：对使用 pygame/three.js 进行评估的争议

在 Reddit 上，一则关于评估方式的帖子引起了广泛关注。该帖子指出每次新模型发布，人们很快就会展示基于 pygame/three.js 制作的旋转六边形弹球、平台游戏、3D 环境、我的世界克隆等成果。虽然这些看起来很酷，但作者认为 pygame 和 three.js 并非制作全真实世界生产级软件的行业标准。此帖获得了众多点赞和大量评论，引发了大家对于评估标准的热烈讨论。

讨论的焦点主要集中在以下几个方面：有人认为 pygame 类型的东西对于粗略能力的烟雾测试是有益的，也是用户测试提示的好方法。但也有人提出，按照作者的提议去做会需要巨大的努力，并且可能很大程度上取决于用户分解工作和提示特定模型的技能。

有人强调每个人应根据自己的实际用例来评估 LLMs。比如在某些工作场所，顶级的视觉模型在分析车辆登记数据的 PDF 时表现不佳，而一个不知名的小模型却表现最佳。还有人分享了自己让 LLMs 总结 4k 左右的会议记录作为评估基准的经历。

也有人认为应该停止抱怨，亲自制定出认为合理的基准。还有观点指出 98%的软件行业并非关于编写游戏，所以所谓的“行业标准”可能并不适用。

特别有见地的观点如“并非每个编码项目都需要像由 300 人的团队制作那样才算成功”，以及“一些独立游戏在非常奇特的引擎中编写却获得了巨大成功”。

总之，在这场讨论中，有人支持原帖观点，认为当前的评估方式存在问题，需要改进；也有人认为原帖的想法过于理想化或不切实际。大家在争论中不断碰撞思维，共同探讨更合理的评估标准。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#