原贴链接

这只是一篇吐槽所谓“最先进技术(SOTA)”模型懒惰的帖子。我有一个存储库(repo),能让大型语言模型(LLM)直接与视觉模型(Lucid_Vision)交互,我想在代码中添加两个新模型(GOT - OCR和Aria)。我还有一个已经使用这两个模型的存储库(Lucid_Autonomy)。我原以为让Claude和ChatGPT做这件事很容易,我只要给它们Lucid_Autonomy和Lucid_Vision,让它们把一个模型的使用整合到另一个模型中就行,但完全不是这样,简直浪费时间。Lucid_Autonomy有1500行代码,Lucid_Vision有850行代码。Claude一直试图修复Lucid_Autonomy中的一个函数,而不处理Lucid_Vision代码,它处理了几个看起来不错的函数,但一直卡在Lucid_Autonomy的一个函数上,不关注Lucid_Vision。我不得不引导Claude更新它忘记更新的部分代码。最后,当我可能即将从Claude得到好结果的时候,我超出了我的令牌(token)限制,还处于冷却(cooldown)状态!ChatGPT和Canvas表现很糟糕,它不会重写所有必要的代码。即使我指出了Lucid_Vision中需要更新的函数,ChatGPT还会欺骗我,试图说服我它们已经更新并且已经在聊天记录里了?而Mistral - Large - Instruct - 2047是我的黄金模型,我为什么还要尝试使用付费的SOTA模型(我导出了我所有的ChatGPT对话,等我通过邮件收到对话后就会取消订阅)。我把1500行和850行代码都给了它,只需要很少的引导,这个模型就完全做到了我需要它做的事情。而且完全离线!如果你们不信的话,我这里有对话记录:https://github.com/RandomInternetPreson/Lucid_Vision/tree/main/LocalLLM_Update_Convo。使用所谓的SOTA模型可能会非常令人沮丧,它们有时很懒惰,或者对修正自身编写的错误代码设置了严格的限制,这真的让我很恼火。

讨论总结

原帖抱怨Claude和ChatGPT等SOTA模型在代码整合任务中的表现不佳,而Mistral - Large - Instruct - 2047表现出色。评论者们分享了各自使用不同模型(如Nemotron、qwen2.5等)的经验、对模型特点(如上下文窗口大小、是否审查等)的看法、本地模型的优势、遇到的问题以及相关技术交流(如模型的量化方式、运行的硬件等),整体氛围积极且专注于模型的使用和比较。

主要观点

  1. 👍 Mistral - Large - Instruct - 2047在处理整合代码任务时表现出色
    • 支持理由:原帖作者在给予该模型1500和850行代码及少量引导下就完成任务,评论者也提到该模型在生成软件安装/设置操作指南方面表现很好等。
    • 反对声音:无。
  2. 🔥 SOTA模型存在限制过多的问题
    • 正方观点:原帖中Claude和ChatGPT在代码整合任务表现不佳,评论者提到ChatGPT拒绝回答一些问题,存在审查等限制。
    • 反方观点:无。
  3. 💡 小参数模型(22B)能够成功用于个人项目并替代ChatGPT
    • 支持理由:评论者以自己周末利用22B参数的Mistral Small完成个人项目为例。
    • 反对声音:无。
  4. 👍 不同的模型在不同任务场景下各有优劣
    • 支持理由:如Qwen 2.5在简单任务上速度更快,而Mistral Large 2在编码任务中如果需要8K - 16K的长回复时优势明显等。
    • 反对声音:无。
  5. 🔥 大公司将道德观念强加给用户是不合理的
    • 正方观点:评论者提到ChatGPT拒绝回答道德相关问题,自己妻子询问朋友遭遇性骚扰应对办法被拒答等。
    • 反方观点:无。

金句与有趣评论

  1. “😂 s101c:If a 22B model was able to replace ChatGPT with a high degree of success, I can imagine how a 123B model must feel like.”
    • 亮点:以一种幽默的方式推测123B模型的效果,强调小参数模型替代ChatGPT的成功。
  2. “🤔 作为一个不喜欢使用被在线服务锁定的计算机软件的人,听到人们在本地LLM上有良好体验总是很不错的。”
    • 亮点:表达对本地LLM积极态度的同时,体现出对在线服务锁定软件的反感。
  3. “👀 ChatGPT sucks with code and it’s lazy as hell.”
    • 亮点:直接且强烈地表达对ChatGPT处理代码能力的不满。
  4. “😂 Inevitable - Start - 653:Being able to do things offline is so fricken cool!”
    • 亮点:简单直白地表达对离线使用模型的喜爱。
  5. “🤔 我真的很喜欢这种(Mistral - Large模型的)方法。”
    • 亮点:表达对Mistral - Large模型的认可。

情感分析

总体情感倾向为对Mistral - Large - Instruct - 2047等非SOTA模型比较积极,对ChatGPT和Claude等SOTA模型存在不满。主要分歧点在于不同模型在不同任务场景下的表现以及SOTA模型是否存在过多限制。可能的原因是大家在使用这些模型过程中有不同的体验,以及对模型功能、审查、成本等方面有不同的需求。

趋势与预测

  • 新兴话题:不同模型在特定任务(如代码处理、生成操作指南等)的表现可能会引发后续讨论,模型的量化方式、运行硬件等技术细节也可能被更多关注。
  • 潜在影响:如果非SOTA模型(如Mistral系列)继续表现优秀,可能会影响用户对模型的选择偏好,促使更多人尝试本地模型,也可能促使大公司改进SOTA模型的不足。

详细内容:

标题:关于不同语言模型的性能比较与用户体验讨论

在 Reddit 上,一篇题为“Mistral-Large-Instruct-2407 really is the ChatGPT at home, helped me where claude3.5 and chatgpt/canvas failed”的帖子引发了热烈讨论。该帖子主要吐槽了所谓的“SOTA”模型(如 Claude 和 ChatGPT)在处理代码整合任务时的表现不佳,而 Mistral-Large-Instruct-2047 模型却能在很少的指导下出色完成任务。此帖获得了众多关注,评论数众多。

讨论的焦点主要集中在不同语言模型的性能、优势和局限性上。有人表示自己的硬件无法运行 Mistral Large 2407 离线版,只能运行量化后的 Mistral Small 并在周末成功用于个人项目。还有人认为能够离线使用模型非常酷,能避免在线搜索时的大量广告和低质量内容。

有用户指出,ChatGPT 和 Claude 的最大问题是上下文窗口大小,需要通过 API 途径并按令牌付费才能使用更大的上下文窗口,而本地模型则可以有多达 128K 令牌可供使用,这在处理大型代码库时非常重要。

一些用户分享了自己使用不同模型的个人经历。比如有人对 Mistral 模型最为喜爱,认为其在很多方面表现出色,尤其是在处理复杂任务时;也有人认为 Nemotron 在某些方面表现较好,但在复杂任务和创意写作方面不如 Mistral Large 2。

关于模型的限制和审查问题也引起了激烈讨论。有人对 SOTA 模型的限制性表示不满,例如某些问题被拒绝回答,甚至给出道德评判。但也有人认为需要有一定的限制,随着模型的发展这些问题会逐渐改善。

有人提出像 MoE 这样的混合响应方式是否有效,也有人认为公众需要学习 LLM 素养。

总的来说,这次讨论展现了用户对各种语言模型的多样看法和期望,也反映出在模型发展过程中存在的诸多问题和挑战。