首先,这是我一直在测试的Qwen2.5模型:[https://ollama.com/hhao/qwen2.5 - coder - tools:14b]。我想简单记录一下过去几天在Cline上使用Qwen2.5特定版本(通过Cline)和Sonnet 3.5(Copilot API,通过Cline和Copilot)的预览Copilot代理功能的体验。先说不好的方面:Qwen2.5 - coder - tools在我的7900xt上运行仍然很慢,尽管它本身不应超出显存(VRAM)限制,但我还在机器上运行着监视器和集成开发环境(IDE),它就会耗尽剩余显存。Q6量化在这里可能会有用,能给我多一点显存。Sonnet 3.5(来自Copilot API)似乎和我之前在Sonnet专业聊天订阅时遇到的问题一样——就好像我在不同时间能使用到它的两个不同版本——一个很擅长遵循规则,另一个遵循规则的概率只有50%。直接使用API可能会解决这个问题,但费用昂贵,所以我不想这么做。Cline似乎真的不擅长判断何时应该继续或停止,无论我选择哪个模型,给出什么指令。与直接使用Sonnet专业聊天(针对JavaScript)相比,我一直觉得我能信任它自己运行,而且一些界面非常有漏洞,不可靠,比如历史/检查点界面。非常恼人的是,在受控环境中,Cline应该能够持续运行直到找到解决方案——但它从不将退出条件记在内存中,因此在完成部分任务(通常不正确)后就说‘任务完成’。Cline和Copilot在非典型环境下表现都很糟糕。我可以完全定义工具运行的独特环境的特性——比如ROCM与CUDA或者受限严重的Docker引擎,但两者都无法将这些信息保留在模型的上下文中——因为模型会脱离这个环境——比如建议将ROCM的Docker容器的基础镜像改为CUDA镜像,或者如果问题不是之前在网上解决过的,就会陷入反复尝试相同调试/修复步骤的循环(公平地说,我自己直接解决这个问题也有困难,这是在vscode中的开发容器实例中,Docker引擎有缺陷的情况下)。说实话,好的方面不多,但它们有成长空间:Qwen2.5可以在不耗尽我的速率限制的情况下完成非常简单的任务,而且目前似乎很擅长使用工具——在我的短期测试中,其工具使用错误率接近Sonnet 3.5。如果能稍微量化以减小尺寸并提高速度(且不失去这种效能),如果我能解决Cline的退出条件问题(甚至可能生成多个Cline代理或者让它们在超级代理下工作),它将成为我的首选。Sonnet 3.5代理只要完全符合现有模式和预期就能处理复杂任务——否则我在代理模式下花费的时间就会比使用侧边聊天和编辑器自动补全功能更多。到目前为止,这种代理编码的情况让我明白软件工程师短期内不会失业,实际上,即使是现有的最强大的编码代理(Sonnet 3.5+代理框架)目前的使用情况也与需要适应性和使用不规则架构的学术/工作系统的实际专有性和局限性不相匹配。似乎让代理在标准/普通编码任务和环境中表现良好会让它们在不规则/现实世界的硬工程任务中表现极差。基于此,对于这类系统的进一步发展我有几个问题:1. 是我错误地使用了Cline吗?作为Cline一部分使用的默认提示在我使用的模型上是不是性能不佳?(我应该尝试什么提示?)2. 鉴于我们有针对模型特定任务的微调,比如我正在使用的qwen2.5 - coder这种工具使用版本,以及R1(和蒸馏)模型的工具使用版本,微调是否应该变得更具体,以便将特定的‘不规则’模型分配给特定的‘不规则’任务?例如,一个超级代理会分配一个在使用ROCM或OneAPI进行AI编码上微调过的编码模型,而不是默认使用CUDA的典型模型?3. 鉴于我通过Copilot API能使用Sonnet 3.5这个强大的模型,但在使用代理模式时经常遇到速率限制,是否有现有的工具能让通过Copilot API的强大代理利用便宜(但有针对性)的本地大型语言模型(LLM)?4. 最后,有没有适合编码/软件工程用例、能很好地适应20GB显存并有剩余空间的有趣的编码/工具使用/规划模型?
讨论总结
原帖作者分享了在特定编程工具(Qwen2.5 - coder - tools/Sonnet 3.5、Cline和Github Copilot代理模式)下的测试体验,指出了一些问题如运行速度慢、环境适应差等。评论中有人推荐了aider工具并讨论其最佳使用方式,也有不少人分享自己在类似测试或使用相关工具时遇到的问题,如模型运行性能不佳、无限循环等,还涉及到对开发者工作是否会被AI取代的担忧。
主要观点
- 👍 推荐aider工具,因其有更多控制选项。
- 支持理由:有更多配置选项,可以对所有事情有更多控制。
- 反对声音:无。
- 🔥 对于aider,r1作为架构模型、sonnet 3.5作为编码模型是最佳使用方式。
- 正方观点:有基准测试表明。
- 反方观点:无。
- 💡 Cline下本地模型不够好,难以满足其工具调用准确性要求。
- 解释:Cline对工具调用准确性有很高要求,本地模型存在不足。
- 💡 在MacBook M3 Pro上使用Qwen - 2.5 - coder 7B时Cline性能不好。
- 解释:Cline的上下文尺寸太大影响性能。
- 💡 尝试多种模型与Cline和Roocode结合,结果不稳定。
- 解释:不同模型与Cline和Roocode组合使用时会得到多样结果。
金句与有趣评论
- “😂 我建议aider。你可以通过其无尽的配置选项对一切进行更多的控制。”
- 亮点:直接推荐aider并强调其优势。
- “🤔 MrRandom04:For aider at least, benchmarks show the absolute best way to use it is with a reasoning model like r1 as the architect and sonnet 3.5 as the coder.”
- 亮点:提供了aider工具使用的一种最佳模型组合方式。
- “👀 HNipps:I use the same model with Continue.dev and everything works quickly.”
- 亮点:对比了在不同平台使用相同模型的性能差异。
- “😉 Everlier:Tip: you can run aider, aichat, gptme, cmdh, openhands and others all together via Harbor”
- 亮点:分享了可以同时运行多个工具的方式。
- “🤔 arm2armreddit: Cline with Sonnet 3.5 is the best assistant for my workflows.”
- 亮点:给出了自己工作流中的最佳工具组合。
情感分析
总体情感倾向较为中性,主要分歧点较少。原帖主要是客观阐述测试体验中的问题,评论也大多是分享经验、提出建议或补充信息,没有明显的情感冲突。可能的原因是这个话题比较技术向,大家更多是基于事实进行交流探讨。
趋势与预测
- 新兴话题:探索在Cline中运行本地模型的优化方式。
- 潜在影响:对编程工具的优化和开发者选择合适工具具有一定的指导意义,有助于提高编程效率和改善工作流程。
详细内容:
标题:对编码代理工具的深度探讨在 Reddit 引发热烈讨论
最近,Reddit 上一篇关于尝试不同编码代理工具的帖子引起了众多关注。该帖子在短短几天内就收获了大量的点赞和众多的评论。
原帖作者分享了其使用 Qwen2.5-coder-tools、Sonnet 3.5 在 Cline 和 Github Copilot 代理模式下的体验。不好的方面包括:Qwen 2.5 coder-tools 在其 7900xt 上运行缓慢;Sonnet 3.5 存在版本不一致的问题;Cline 难以判断何时继续或停止,界面也存在不少漏洞;Cline 和 Copilot 在非典型环境中表现糟糕。好的方面是 Qwen 2.5 能完成简单任务且工具使用率不错;Sonnet 3.5 能处理复杂任务但需完美匹配现有模式。作者由此提出了对这类系统进一步发展的几个问题。
讨论焦点主要集中在各种工具的优劣及改进方向。有人表示建议使用 aider,称其配置选项众多能更好控制。有人指出对于 aider,使用 r1 作为架构师、sonnet 3.5 作为编码员的组合在基准测试中表现最佳。还有人提到使用 LLMs 时遇到的诸如陷入循环、浪费令牌等问题。
有用户分享道:“我使用 Qwen-2.5-coder 7B 在 MacBook M3 Pro 上,发现 Cline 的上下文大小太大导致性能不佳。我在 Continue.dev 上使用相同模型,一切都运行得很快。”
讨论中的共识在于目前这些编码代理工具还存在诸多问题,有待进一步改进和完善。独特的观点如有人认为尽管人们对 LLMs 寄予厚望,但它们目前更像是更高级的自动补全工具。
目前,这些编码代理工具仍有很大的发展空间,如何优化性能、提高准确性以及更好地适应各种工作环境,是未来需要重点关注的方向。
感谢您的耐心阅读!来选个表情,或者留个评论吧!