原贴链接

不久前,我通过向各种大型语言模型(LLM)提出一个非常简单的提示来设立一个代码创意基准测试:‘用Python编写一个光线追踪器,渲染一个有许多彩色光源的有趣场景,并以800x600的png图像输出。’我只允许一次性回答,不允许通过迭代提示来修复有问题的代码。有趣的是,大多数LLM生成的代码创建的是一个有红、绿、蓝球体的非常简单的场景,而且往往布局也不正确。推测起来,这个简单的RGB示例是预训练数据中经常出现的内容。然而,不知为何Sonnet 3.5尤其是Sonnet 3.7创建的程序生成了更复杂多样的场景,使用了更好看的颜色。同时文件大小也增加了。Anthropic找到了某种方法让模型提高编码的创造力并产生更具美感的结果 - 除了查看图像之外,不知道如何衡量这一点(欢迎在评论中对他们如何做到这一点进行推测以及提出更多衡量的想法)。今天我测试了DeepSeek V3 0324,它肯定已经追平了3.7,相比V3有了巨大的改进。基准测试数据和更多信息见这里每个LLM被提示4次的方差测试所有测试的LLM的总结

讨论总结

原帖设置了一个代码创意基准测试,比较DeepSeek V3 - 0324和Sonnet3.7在编写Python光线追踪器代码任务中的表现,得出DeepSeek V3 - 0324已赶上Sonnet3.7且相比自身V3版本有很大改进。评论中大家对不同模型在这个测试以及其他测试(如构建超级马里奥游戏)中的表现进行讨论,包括对程序大小增加原因的猜测、模型输出连贯性的探讨、特定模型(如Gemini 2 Pro、R1)的测试结果,还有人分享个人测试经验、表达对不同模型的喜好、询问未测试模型情况或提出使用模型相关的需求等。

主要观点

  1. 👍 DeepSeek V3 - 0324和Sonnet3.7存在程序大小显著增加的现象。
    • 支持理由:评论者观察到二者程序大小增加这一现象并提出。
    • 反对声音:无。
  2. 🔥 在代码创意基准测试中,不同的LLMs有不同表现。
    • 正方观点:原帖通过对比不同LLMs的测试结果得出。
    • 反方观点:无。
  3. 💡 DeepSeek V3 - 0324在虚构创作方面被破坏了,变得像R1 - lite。
    • 支持理由:AppearanceHeavy6724根据自己的判断得出。
    • 反对声音:无明确反对,但有不同看法讨论R1输出问题的解决方法等。
  4. 👍 Sonnet 3.7首次使用时输出较多,有时像按字数计分一样输出大量内容。
    • 支持理由:评论者根据使用经验提出。
    • 反对声音:无。
  5. 🔥 R1在该基准测试中失败,即便有长思维链也未能输出可运行程序。
    • 正方观点:原帖提到多次测试R1均未得到可运行程序。
    • 反方观点:无。

金句与有趣评论

  1. “😂 One additional thing that happened with DSV3_0324 and Sonnet37 is that the program size significantly increased.”
    • 亮点:直接指出两个模型的程序大小显著增加这一现象,是讨论的一个重要依据。
  2. “🤔 Btw, R1 failed in this benchmark because despite a long CoT it did not output a functioning program at the end. Tried several times.”
    • 亮点:明确阐述R1在基准测试中的失败情况,对理解模型在测试中的表现有帮助。
  3. “👀 Alas they ruined V3 for fiction. It became R1 - lite.”
    • 亮点:提出DeepSeek V3 - 0324在虚构创作方面的变化,引发对模型在不同创作领域适用性的讨论。
  4. “😂 The 3.7 thinking looks hands down the best.”
    • 亮点:表达对Sonnet 3.7在思维方面表现的高度认可。
  5. “🤔 I just tested to build mario game. First try and got a much better version than I ever got from DP R1…. with a new V3 not reasoner… insane”
    • 亮点:分享构建超级马里奥游戏的测试结果,对比不同模型的表现。

情感分析

总体情感倾向是积极探索型的。主要分歧点在于对不同模型表现的评价,如对DeepSeek V3 - 0324在虚构创作方面的看法,有人认为被破坏,也有人未提及或有不同观点;对R1模型输出连贯性也存在不同看法。可能的原因是大家使用模型的场景、对模型的期望以及对不同任务(如代码创意、虚构创作等)的侧重点不同。

趋势与预测

  • 新兴话题:随着R2和QwQ Max的发展,即将出现优秀的开源编码模型这一期待可能引发后续讨论。
  • 潜在影响:对不同模型在不同任务(代码创作、虚构创作、游戏构建等)中的表现讨论有助于用户更好地选择适合自己需求的模型,也可能影响模型开发者对模型优化方向的决策。

详细内容:

标题:DeepSeek V3-0324 在代码创造力基准测试中赶上 Sonnet 3.7

在 Reddit 上,一个关于代码创造力基准测试的话题引发了热烈讨论。原帖设定了一个简单的提示:“用 Python 编写一个光线追踪器,渲染出一个具有许多彩色光源的有趣场景,并输出 800x600 的 PNG 图像”,且只允许一次生成,不允许迭代提示来修复错误代码。原帖指出 Sonnet 3.5 和 3.7 生成的程序能创造更复杂和多样的场景,文件大小也有所增加。如今 DeepSeek V3 0324 已赶上 Sonnet 3.7,这一进展令人瞩目。该帖子获得了众多关注,引发了大量讨论。文章将要探讨的核心问题是不同模型在代码创造力方面的表现及差异的原因。

在讨论中,主要观点众多。有人提出 DSV3_0324 和 Sonnet37 生成的程序大小显著增加,猜测这是训练时长增加还是其他优化的副作用。有用户分享道:“写 10kB 的内容一次性生成是很大的工作量。”还有人指出 Sonnet 3.7 就像一个思考模型,能够在思考和非思考之间切换,并且如果在网站上点击解释性设置,添加“逐步思考”到提示中,它会给出答案,然后如果认为不正确就会重试,这令人印象深刻。

有人认为 R1 存在过度思考的问题,可能需要更好的基于性能的强化学习来解决,模型学会了自我批评,但不知道何时停止。也有人表示 R1 在这个基准测试中失败了,尽管进行了长时间的思维链,但最终没有输出可运行的程序。

关于模型在创意写作方面,观点各异。有人认为 R1 虽然更具创造力,但往往不太连贯,随着故事变长问题更严重。也有人表示喜欢 R1 的风格,认为它有趣且新鲜。还有人提到调整温度和添加特定提示可以改善生成效果。

在个人经历和案例分享方面,有用户给出了具体的提示并分享了不同模型的输出结果。

总之,这次讨论展现了大家对不同模型性能的深入思考和多样观点,也反映出在模型发展过程中仍存在诸多待解决的问题和探索的方向。