原贴链接

每次有新模型发布时,人们很快就开始发布旋转六边形弹球、平台游戏、3D three.js环境、《我的世界》克隆之类的结果。这些看起来都很酷,但目前pygame和three.js并非制作完整的现实世界生产级软件的行业标准。我认为更好的评估方法是让大型语言模型(LLM)为虚幻(Unreal)/统一(Unity)引擎创建脚本,以使用插件程序化地生成游戏逻辑、资源、纹理等,在Web和原生软件开发工具包(如React Native、Flutter、Kotlin、Swift等)中创建前端,创建后端代码(Node.js)、数据库模式(SQL或NoSQL),并审核结果,看结果在性能、安全和功能方面是否达到行业标准。我们需要人们优先考虑像软件工程师(SWE)和高级本地工程师(HLE)这样的现实世界基准。

讨论总结

原帖作者厌倦看到用pygame/three.js对大型语言模型(LLMs)进行评估,认为应该采用如让LLMs为虚幻/统一引擎创建脚本等更符合行业标准的评估方式。评论者观点多样,部分理解原帖但认为pygame可初步测试能力,也有人强调应基于自身用例评估LLMs,还有很多人对原帖提出的“行业标准”以及新的评估方式的可行性进行质疑等,整体讨论氛围较为理性客观。

主要观点

  1. 👍 理解原帖观点,但认为pygame可用于初步能力测试。
    • 支持理由:可以对LLMs进行粗略能力的初步测试,也是用户测试提示的好方法。
    • 反对声音:无。
  2. 🔥 应基于自己的实际用例评估LLMs。
    • 正方观点:不同模型在不同用例下有不同表现,不应被与自身需求无关的基准测试影响。
    • 反方观点:无。
  3. 💡 认为有想法就应该行动而非抱怨。
    • 解释:如果原帖作者有自己认为合理的评估基准,就应该停止抱怨并着手去做,而不是等待他人。
  4. 🤔 评估都会有特定的命运,问题解决后评估就不再重要。
    • 解释:从宏观角度看待评估现象,认为一旦评估的问题被解决,评估本身就变得无关紧要了。
  5. 👀 软件行业大部分不是关于游戏编写的,原帖提及的“行业标准”有待考量。
    • 解释:原帖以游戏相关的引擎等为行业标准,但实际上软件行业大部分工作与游戏编写无关,所以原帖的行业标准概念存在争议。

金句与有趣评论

  1. “😂 While I can sympathize, I think that the pygame type stuff makes for a good smoke test of rough capabilities and can also be a good way for a user to test out prompting too.”
    • 亮点:对原帖厌倦的pygame评估方式提出不同看法,认为其有一定价值。
  2. “🤔 Everybody should evaluate LLMs based on their OWN REAL usecase.”
    • 亮点:强调根据自身实际用例评估LLMs的重要性。
  3. “👀 Do it, stop complaining and come up with what you consider a reasonable benchmark.”
    • 亮点:针对原帖作者的抱怨给出行动性建议。
  4. “😉 What you’re proposing would take a dramatically larger effort.”
    • 亮点:指出原帖提议的评估方式需要更多努力。
  5. “💡 I was just trying to get people’s attention off useless evaluation methods to something useful in real life.”
    • 亮点:原帖作者解释自己的意图不是发牢骚,而是引导关注有用的评估方法。

情感分析

总体情感倾向较为理性中立。主要分歧点在于对原帖提出的评估方式以及“行业标准”概念的看法。原帖作者希望改变现有的评估方式,部分评论者理解但也有很多评论者提出质疑,原因是原帖的提议在实际操作、适用范围等方面存在一些考虑不周全的地方,比如新评估方式的难度、是否符合大多数人的需求等。

趋势与预测

  • 新兴话题:C++的不同代码作为LLMs评估基准的探讨可能会引发后续讨论。
  • 潜在影响:对LLMs评估方式的深入探讨可能促使相关人员更加科学合理地评估LLMs,进而影响LLMs在不同领域的应用。

详细内容:

标题:对使用 pygame/three.js 进行评估的争议

在 Reddit 上,一则关于评估方式的帖子引起了广泛关注。该帖子指出每次新模型发布,人们很快就会展示基于 pygame/three.js 制作的旋转六边形弹球、平台游戏、3D 环境、我的世界克隆等成果。虽然这些看起来很酷,但作者认为 pygame 和 three.js 并非制作全真实世界生产级软件的行业标准。此帖获得了众多点赞和大量评论,引发了大家对于评估标准的热烈讨论。

讨论的焦点主要集中在以下几个方面: 有人认为 pygame 类型的东西对于粗略能力的烟雾测试是有益的,也是用户测试提示的好方法。但也有人提出,按照作者的提议去做会需要巨大的努力,并且可能很大程度上取决于用户分解工作和提示特定模型的技能。

有人强调每个人应根据自己的实际用例来评估 LLMs。比如在某些工作场所,顶级的视觉模型在分析车辆登记数据的 PDF 时表现不佳,而一个不知名的小模型却表现最佳。还有人分享了自己让 LLMs 总结 4k 左右的会议记录作为评估基准的经历。

也有人认为应该停止抱怨,亲自制定出认为合理的基准。还有观点指出 98%的软件行业并非关于编写游戏,所以所谓的“行业标准”可能并不适用。

特别有见地的观点如“并非每个编码项目都需要像由 300 人的团队制作那样才算成功”,以及“一些独立游戏在非常奇特的引擎中编写却获得了巨大成功”。

总之,在这场讨论中,有人支持原帖观点,认为当前的评估方式存在问题,需要改进;也有人认为原帖的想法过于理想化或不切实际。大家在争论中不断碰撞思维,共同探讨更合理的评估标准。