原贴链接

我通过Google Studio使用这个模型有一段时间了,但就是搞不懂它。我想,管它呢,为什么不以一种有意义的方式进一步探索呢。我没指望它能从头开始编写《孤岛危机》(Crysis)或者拼写出‘STRAWBERRY’这个单词里所有的‘R’,但我想知道,单纯的提示在这里的极限是什么。这是我在几次成功但表现不佳的结果之后,第三次粗糙地设计提示:生成的代码首次尝试就有效。然后,我想改进逻辑:[由于Huber损失函数(huber loss)的实现出现了一个错误,添加一行代码就解决了。](https://preview.redd.it/u0l1334ufjre1.png?width = 1241&format = png&auto = webp&s = 3a1a827c48ba2ed5dc9fc06b281ad41485f61364)代码太长,无法以截图形式分享,抱歉。不过别担心,我会在评论里给出Pastebin链接。这时我想,我们是不是在没有任何有意义输入的情况下尝试训练模型呢?因为我不一定指定了某个工作流程或方法,只是用了普通极客(geek)的话。[根据Gemini的说法,实际上这不是随机的。](https://preview.redd.it/lhwmovg4gjre1.png?width = 1200&format = png&auto = webp&s = 3fd7d45b2b687e8ac14cb356081a4e6ad08fd800)现在,这个模型使用Pygame来运行模拟,但在Colab的一个单元里运行Pygame很烦人。所以,它将最佳结果保存为视频。不可能就这么顺利吧?第3轮(Epoch 3)这里是第23轮(Epoch 23)!https://reddit.com/link/1jmcdgy/video/hzl0gofahjre1/player##最终想法请尽量免费使用Gemini并保存输出。我们可以一起创建一个最先进的数据集。Pastebin链接在评论里。

讨论总结

原帖作者分享自己构建ML模型的经历与成果,包括代码运行情况等。评论者从不同角度进行讨论,有人认为原帖成果基于已知算法且其他模型也能做到类似事情,有人觉得原帖内容很酷且代码文档做得好但也有人质疑这一点,还有人询问系统要求、分享代码、提出建议,也存在部分人反对原帖中的用词等情况。

主要观点

  1. 👍 原帖成果是定制化且基于已知算法(DQN),Qwen - coder - 32B可能做到类似成果
    • 支持理由:评论者ShengrenR指出原帖成果在基本环境中使用已知算法,Qwen - coder - 32B在类似情况下也有能力做到。
    • 反对声音:无
  2. 🔥 原帖内容很酷且代码文档做得好
    • 正方观点:评论者认为成果展示清晰,代码有较好的文档记录。
    • 反方观点:有人表示没看到代码,有人认为无法通过代码审查。
  3. 💡 原帖作者在提示方面有天赋,但应做出实际东西
    • 原帖作者在没有太多经验下取得一定成果,但目前成果还不够实际。
  4. 💡 原帖模型可在PyTorch或Jax中运行而非TensorFlow
    • 现在很少有人使用TensorFlow,可尝试其他框架。
  5. 💡 原帖成果比大多数机器学习研究者的成果要好
    • 即使代码文档存在争议,但整体成果还是较好的。

金句与有趣评论

  1. “😂 ‘Customized’ for sure - but it’s still using a known (DQN) RL algorithm on a basic environment - I’m pretty sure Qwen - coder - 32B could manage something similar.”
    • 亮点:明确指出原帖成果基于已知算法,并且提出其他模型也能有类似成果。
  2. “🤔 这是超级酷的,并且代码有很好的文档记录。”
    • 亮点:正面评价原帖内容和代码文档。
  3. “👀 Prompt Genius. Now try to actually make something.”
    • 亮点:认可原帖作者在提示方面的天赋,同时提出进一步期望。
  4. “😉 其比大多数机器学习研究者所产出的要好,很不幸,要好得多。”
    • 亮点:高度评价原帖成果。
  5. “🧐 The code is here: https://pastebin.com/a5hgMEiS
    • 亮点:直接分享代码位置。

情感分析

总体情感倾向比较多元。有正面评价原帖成果的,认为很酷、比大多数研究者成果好等;也有反对的声音,如反对原帖中的用词。主要分歧点在于对原帖成果的评价,包括代码文档是否做得好,原帖成果是否足够有实际价值等,原因是大家的评判标准不同,有的从成果本身的创新性看,有的从代码规范性看。

趋势与预测

  • 新兴话题:原帖作者按照建议尝试新的模型探索方向,如创建使用pygame和Q - learning的迷宫。
  • 潜在影响:如果原帖作者继续深入探索并分享成果,可能会对机器学习领域相关研究提供更多的思路和参考。

详细内容:

标题:在毫无经验的情况下“Vibe 编码”的 ML 模型引发 Reddit 热议

最近,Reddit 上一篇题为“[Proprietary Model] I ‘Vibe Coded’ An ML model From Scratch Without Any Solid Experience, Gemini-2.5”的帖子引起了广泛关注。帖子作者表示自己在使用 Google Studio 的模型一段时间后,决定在没有丰富经验的情况下进一步探索,尽管不期望模型能完成高难度任务,但好奇纯提示的极限在哪里。该帖子获得了众多点赞和大量评论。

帖子引发的主要讨论方向包括对模型的性能评价、与其他模型的对比、训练过程中的经历分享以及对相关技术的探讨。核心问题是这种在缺乏经验情况下的模型开发方式的可行性和潜力。

讨论焦点与观点分析: 有人认为,尽管这个模型有一定成果,但像 Qwen-coder-32B 这样的模型也能做到类似的事情,而且还建议使用 pytorch 或 jax 而不是 tensorflow。有用户分享道:“One of the first things I had qwen coder do for me was to make pong and then train an RL agent to learn to play it. It’s more simple than the ball chasing amoeba you got, but not by a lot. Now, I’d let the thing use gymnasium and not have to code the agent from scratch, but I wouldn’t either. Qwq ought to do even better for the planning. Download and see for yourself imo, best proof there can be.” 还有人表示这个模型超级酷,代码文档完善,并询问运行训练对系统的需求以及所需时间。有人分享:“The original code created a super small model. This was all on Colab, the RAM use was floating around 2.5GBs and VRAM use was just 200MB. I could prompt further to apply speed optimizations I think, but 50 epochs took around 2 hours on colab’s free tier. After 40 - ish epochs, model started to show a lot of deliberate actions. Keep in mind this is reinforcement learning, so it can go forever to find (or not find) an optimum solution.” 有人觉得这个模型比大多数 ML 研究者的成果都要好,也有人认为并非如此。有人认为代码文档完善,但也有人表示没看到代码在哪里。还有人提出让模型解决使用 pygame 和 Q - learning 的迷宫问题会很酷。

讨论中的共识在于大家对模型开发和技术探索的热情。特别有见地的观点如对不同模型的比较和对技术应用的建议,丰富了讨论的深度和广度。

总的来说,这次关于“Vibe 编码”的 ML 模型的讨论展现了技术爱好者们对前沿领域的积极探索和深入思考。