原贴链接

我最近尝试将一个3000行的C文件翻译成Lua。

结果:

  1. DeepSeek Chat V2 Q4 - 在我的48GB VRAM + 256GB RAM机器上无法分配32k上下文(尝试了不同的卸载比例)。

结论:PC太弱了 :(

  1. Llama 3.1 70B Q4 - 重复的垃圾输出
  2. Llama 3.1 70B Q6 - 重复的垃圾输出

结论:不适合

  1. Codestral - 从大约100个方法中写出了几个方法,并带有-- 待实现注释

结论:不适合长文件重写

  1. DeepSeek Lite V2 Q8 - 成功了! 有一些语法错误,但代码看起来不错!当然,将3000行与结果的约800行Lua代码进行比较需要时间(由于更简单的JSON处理,行数减少了),但仍然!

结论:很棒!

你有没有类似的或相反的经历?使用的是哪些编码模型?

讨论总结

Reddit用户讨论了在处理长代码文件时使用不同编程语言模型的经验。主要关注点包括模型的性能、硬件要求、用户体验和代码翻译的准确性。一些模型如DeepSeek Lite V2 Q8表现出色,而其他模型如Llama 3.1 70B则未能成功处理任务。讨论还涉及了硬件限制、模型参数设置和用户对不同模型的偏好。

主要观点

  1. 👍 DeepSeek Lite V2 Q8成功处理长代码文件
    • 支持理由:尽管存在一些语法错误,但整体代码质量良好。
    • 反对声音:无
  2. 🔥 Llama 3.1 70B Q4和Q6输出重复的垃圾内容
    • 正方观点:无
    • 反方观点:难以相信Llama 3.1 70B无法完成任务,可能存在提示问题。
  3. 💡 Codestral不适合长文件重写
    • 支持理由:能写出一些方法并带有“待实现”注释。
    • 反对声音:无
  4. 👀 DeepSeek Chat V2 Q4在48GB VRAM + 256GB RAM的机器上无法分配32k上下文
    • 支持理由:硬件限制导致无法处理长代码文件。
    • 反对声音:无
  5. 🚀 CodeGeeX4 9b模型更智能且速度更快
    • 支持理由:作者之前喜欢Codestral 22b模型,但现在更倾向于使用CodeGeeX4 9b模型。
    • 反对声音:无

金句与有趣评论

  1. “😂 My experience Is quite different from yours, focusing on .NET and React Typescript code.
    • 亮点:展示了不同用户在不同领域的经验差异。
  2. “🤔 Codestral: by far the MOST reliable of them all.
    • 亮点:强调了Codestral在某些用户中的高可靠性。
  3. “👀 I’ve tried deepseek v2 lite today to write some unit tests and was fairly disappointed.
    • 亮点:反映了用户对DeepSeek Lite V2 Q8在特定任务上的失望。

情感分析

讨论的总体情感倾向是中性的,既有对某些模型性能的赞赏,也有对其他模型性能的失望。主要分歧点在于不同模型在处理长代码文件时的表现和用户体验。可能的原因包括硬件限制、模型参数设置和用户对不同模型的偏好。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括CodeGeeX4模型的性能和Mistral Large 2 123B模型的应用。
  • 潜在影响:对相关领域或社会的潜在影响包括提高代码翻译的效率和准确性,以及对编程模型性能的持续优化。

详细内容:

标题:关于代码语言模型的热门讨论

近日,Reddit 上有一则关于尝试使用不同代码语言模型处理长代码文件的热门帖子引起了广泛关注。原帖作者表示,自己最近尝试将 3000 行长的 C 文件翻译成 Lua,在测试了多种模型后,只有 DeepSeek Lite V2 Q8 表现出色,虽然存在一些语法错误,但整体效果不错。该帖子获得了众多的点赞和大量的评论。

讨论焦点主要集中在不同代码语言模型的表现和适用场景。有人分享道:“我在.NET 和 React Typescript 代码方面的经验与你大不相同。DeepSeek Coder V2 lite 经常虚构不存在的内容,更改不应受影响的代码部分,而且在多轮提示对话中无法纠正错误。Codestral 则是目前为止最可靠的,尽管输出上下文大小较低,但能够轻松生成方法,并对代码进行有效的更改,没有像你描述的‘待实现’之类的废话。CodeGeeX 比 DeepSeek V2 lite 可靠,但还是比不上 Codestral。Llama3.1 表现时好时坏,不太喜欢。IBM LLM / RepleteCoder 简直就是垃圾。”

还有用户提到:“我今天试用了 Deepseek v2 lite 来编写一些单元测试,结果相当失望。大多数测试实际上并没有测试任何东西。Llama 3.1 70b 编写的测试不错,但在本地运行很麻烦。看到你的评论,我很期待尝试 Codestral。”

有人表示:“Codestral 是我最喜欢的,但你试过 Mistral large 2 吗?从我测试的情况来看,它比 Codestral 还要好。能够提供不错的长响应,且不会遗漏代码。”

也有用户认为:“DeepSeek Lite V2 是一个很小的模型,只有 16B,但能有这样的表现很惊人。”

不过,也有人提出不同看法,比如:“Llama 3.1 容易遗漏或缺失代码,或者用注释替换大量代码。Codestral 只是 22B 模型,实用性有限,速度快,可能适合一些更注重性能而非质量的简单任务。WizardLM 2 Beige 表现不错,但也存在用注释替换代码和忽略指令的问题,在处理许多中等复杂任务时存在困难,有时甚至无法遵循基本指令。目前为止,Mistral Large 2 123B 是最好的模型,在旧的 3090 卡上性能出色,能够遵循多个指令编写或重写代码,还能根据需求提供长短不同的回复。”

那么,在众多代码语言模型中,究竟哪一款才是最适合您的呢?这还有待根据您的具体需求和使用场景进一步探索。