原贴链接

该帖子仅提供了一些图片链接,无有效可翻译内容

讨论总结

此贴关于“Model comparision in Advent of Code 2024”展开讨论。评论者们分享了各自的模型使用体验,如将编码工作流程从sonnet转换为deepseek且感觉良好;提到了不同模型在不同方面的表现,像GPT - 4o在Python中的奇怪表现等;也有很多技术方面的疑问交流,如特定模型之间的差异、运行项目所需的VRAM数量等;还有对模型比较结果或相关情况表示疑惑、怀疑的声音。

主要观点

  1. 👍 Deepseek体验良好
    • 支持理由:有人将工作流程转换到Deepseek并喜爱它,还有人评价DeepSeek表现出色。
    • 反对声音:有在Codeforces题目上测试Deepseek失败的情况。
  2. 🔥 模型评测体系应改进
    • 正方观点:认为更公平的评测体系应基于各模型最佳提示词来评判。
    • 反方观点:未提及。
  3. 💡 开发人员应对AI威胁的策略
    • 一些开发人员转向Haskell和OCaml以延缓被AI取代。
  4. 🤔 GPT - 4o在Python中的表现不佳
    • 在Python中大多能解题但无法正确输出结果。
  5. 😎 1.5b模型可用性令人惊讶
    • 可以用于代码库重新生成嵌入并且不需要重新排序器。

金句与有趣评论

  1. “😂 tengo_harambe: Deepseek is the GOAT”
    • 亮点:简洁且强烈地表达对Deepseek的推崇。
  2. “🤔 Switched a lot of my coding workflow over from sonnet to deepseek this past week and have been loving it.”
    • 亮点:分享了个人实际的编码工作流程转换及积极体验。
  3. “👀 GPT - 4o scores.2% more than GPT - 4o mini. Imagine that being your flagship model for like half a year.”
    • 亮点:指出GPT - 4o与GPT - 4o mini的得分差异对旗舰模型来说不可思议。
  4. “😮 All devs transitioning to Haskell and OCaml to delay being replaced by AI”
    • 亮点:提出开发人员应对AI的一种独特策略。
  5. “🤓 A fairer system would be to find the prompt that works best for each model and judge them by that.”
    • 亮点:给出关于更公平评测模型的思考。

情感分析

总体情感倾向积极正面,大家积极分享自己的观点和经验。主要分歧点在于对Deepseek的评价,有认为表现出色的,也有在测试中发现其失败的。可能的原因是不同的测试场景和使用目的会导致对模型评价的差异。

趋势与预测

  • 新兴话题:围绕模型的污染问题、知识截止点以及RAG(检索增强生成)等方面可能会有更多深入讨论。
  • 潜在影响:对模型开发者来说,这些讨论可能促使他们改进评测体系、优化模型性能,对于使用者来说,可以更好地选择适合自己需求的模型。

详细内容:

标题:关于 Advent of Code 2024 中模型比较的热门讨论

在 Reddit 上,一则关于“Advent of Code 2024 中模型比较”的帖子引起了广泛关注。该帖子包含了一系列相关图片,但由于连接问题暂时无法正常显示。截至目前,此帖收获了众多的点赞和评论,引发了热烈的讨论。

讨论的主要方向包括不同模型的性能表现、适用的开发环境以及在实际应用中的体验等。其中的核心问题和争议点在于各种模型的优劣对比以及其在不同场景下的适用性。

在讨论中,有人分享道:“过去一周把很多编码工作流程从 Sonnet 切换到了 DeepSeek,非常喜欢。但 Sonnet 的 Rust 和 C++性能在没有推理的情况下依然令人印象深刻。不知道 Anthropic 在 2025 年会推出什么,很期待。同时,感谢在这次比较中包含了函数式语言,这是第一次看到有这样的‘基准测试’。”

有人提问:“您使用 DeepSeek 时搭配的是哪个 IDE?”

还有人详细介绍了如何在 Cursor 中设置 DeepSeek 的步骤:“1. 前往 Cursor 设置/模型;2. 取消选择所有模型;3. 添加模型,如‘deepseek-chat’或‘deepseek-reasoner’(目前 reasoner 有 bug);4. 前往https://api-docs.deepseek.com/充值并获取 API 密钥;5. 在模型设置中的 OpenAI 密钥处,点击覆盖基础 URL,并插入此链接(必须包含/v1)以支持 oai 兼容:‘https://api.deepseek.com/v1’;6. 添加您的 API 密钥,必须点击验证才能生效;7. 测试聊天,您可以重新选择模型,但使用模型时必须重新添加 API 密钥。”

有人表示之前尝试过但出现了很多错误,打算再试一次。

有人指出 DeepSeek 的 Reasoner 不支持某些参数。

有人询问这是否仅适用于聊天/快速编辑,还是 Composer 也能用,以及 Cursor 标签是否能继续工作,或者能否使用其他工具获取建议/FIM。

有人认为 DeepSeek 模型在某些方面不如 Sonnet。

有人表示自从 3 Opus 发布以来,99%的编码工作都使用了 Claude,因为想支持开源才尝试 DeepSeek,并且认为 v3 纠正了 Sonnet 的一些弱点。

有人好奇为什么排除了 o1,是否进行了基准测试。有人解释说 Open AI 对 o1 有最低消费要求。有人表示如果愿意分享代码,可以帮忙测试。有人分享了相关的代码链接。

有人提出所有开发者都转向 Haskell 和 OCaml 以延缓被 AI 取代。

有人对不同模型的特点进行了比较和分析。

总之,这次关于 Advent of Code 2024 中模型比较的讨论展现了大家对于各种模型的深入思考和探索,为相关领域的开发者和爱好者提供了丰富的参考和见解。