原贴链接

这只是一篇吐槽所谓“最先进技术（SOTA）”模型懒惰的帖子。我有一个存储库（repo），能让大型语言模型（LLM）直接与视觉模型（Lucid_Vision）交互，我想在代码中添加两个新模型（GOT - OCR和Aria）。我还有一个已经使用这两个模型的存储库（Lucid_Autonomy）。我原以为让Claude和ChatGPT做这件事很容易，我只要给它们Lucid_Autonomy和Lucid_Vision，让它们把一个模型的使用整合到另一个模型中就行，但完全不是这样，简直浪费时间。Lucid_Autonomy有1500行代码，Lucid_Vision有850行代码。Claude一直试图修复Lucid_Autonomy中的一个函数，而不处理Lucid_Vision代码，它处理了几个看起来不错的函数，但一直卡在Lucid_Autonomy的一个函数上，不关注Lucid_Vision。我不得不引导Claude更新它忘记更新的部分代码。最后，当我可能即将从Claude得到好结果的时候，我超出了我的令牌（token）限制，还处于冷却（cooldown）状态！ChatGPT和Canvas表现很糟糕，它不会重写所有必要的代码。即使我指出了Lucid_Vision中需要更新的函数，ChatGPT还会欺骗我，试图说服我它们已经更新并且已经在聊天记录里了？而Mistral - Large - Instruct - 2047是我的黄金模型，我为什么还要尝试使用付费的SOTA模型（我导出了我所有的ChatGPT对话，等我通过邮件收到对话后就会取消订阅）。我把1500行和850行代码都给了它，只需要很少的引导，这个模型就完全做到了我需要它做的事情。而且完全离线！如果你们不信的话，我这里有对话记录：https://github.com/RandomInternetPreson/Lucid_Vision/tree/main/LocalLLM_Update_Convo。使用所谓的SOTA模型可能会非常令人沮丧，它们有时很懒惰，或者对修正自身编写的错误代码设置了严格的限制，这真的让我很恼火。

讨论总结

原帖抱怨Claude和ChatGPT等SOTA模型在代码整合任务中的表现不佳，而Mistral - Large - Instruct - 2047表现出色。评论者们分享了各自使用不同模型（如Nemotron、qwen2.5等）的经验、对模型特点（如上下文窗口大小、是否审查等）的看法、本地模型的优势、遇到的问题以及相关技术交流（如模型的量化方式、运行的硬件等），整体氛围积极且专注于模型的使用和比较。

主要观点

👍 Mistral - Large - Instruct - 2047在处理整合代码任务时表现出色
- 支持理由：原帖作者在给予该模型1500和850行代码及少量引导下就完成任务，评论者也提到该模型在生成软件安装/设置操作指南方面表现很好等。
- 反对声音：无。
🔥 SOTA模型存在限制过多的问题
- 正方观点：原帖中Claude和ChatGPT在代码整合任务表现不佳，评论者提到ChatGPT拒绝回答一些问题，存在审查等限制。
- 反方观点：无。
💡 小参数模型（22B）能够成功用于个人项目并替代ChatGPT
- 支持理由：评论者以自己周末利用22B参数的Mistral Small完成个人项目为例。
- 反对声音：无。
👍 不同的模型在不同任务场景下各有优劣
- 支持理由：如Qwen 2.5在简单任务上速度更快，而Mistral Large 2在编码任务中如果需要8K - 16K的长回复时优势明显等。
- 反对声音：无。
🔥 大公司将道德观念强加给用户是不合理的
- 正方观点：评论者提到ChatGPT拒绝回答道德相关问题，自己妻子询问朋友遭遇性骚扰应对办法被拒答等。
- 反方观点：无。

金句与有趣评论

“😂 s101c：If a 22B model was able to replace ChatGPT with a high degree of success, I can imagine how a 123B model must feel like.”
- 亮点：以一种幽默的方式推测123B模型的效果，强调小参数模型替代ChatGPT的成功。
“🤔 作为一个不喜欢使用被在线服务锁定的计算机软件的人，听到人们在本地LLM上有良好体验总是很不错的。”
- 亮点：表达对本地LLM积极态度的同时，体现出对在线服务锁定软件的反感。
“👀 ChatGPT sucks with code and it’s lazy as hell.”
- 亮点：直接且强烈地表达对ChatGPT处理代码能力的不满。
“😂 Inevitable - Start - 653：Being able to do things offline is so fricken cool!”
- 亮点：简单直白地表达对离线使用模型的喜爱。
“🤔 我真的很喜欢这种（Mistral - Large模型的）方法。”
- 亮点：表达对Mistral - Large模型的认可。

情感分析

总体情感倾向为对Mistral - Large - Instruct - 2047等非SOTA模型比较积极，对ChatGPT和Claude等SOTA模型存在不满。主要分歧点在于不同模型在不同任务场景下的表现以及SOTA模型是否存在过多限制。可能的原因是大家在使用这些模型过程中有不同的体验，以及对模型功能、审查、成本等方面有不同的需求。

趋势与预测

新兴话题：不同模型在特定任务（如代码处理、生成操作指南等）的表现可能会引发后续讨论，模型的量化方式、运行硬件等技术细节也可能被更多关注。
潜在影响：如果非SOTA模型（如Mistral系列）继续表现优秀，可能会影响用户对模型的选择偏好，促使更多人尝试本地模型，也可能促使大公司改进SOTA模型的不足。

详细内容：

标题：关于不同语言模型的性能比较与用户体验讨论

在 Reddit 上，一篇题为“Mistral-Large-Instruct-2407 really is the ChatGPT at home, helped me where claude3.5 and chatgpt/canvas failed”的帖子引发了热烈讨论。该帖子主要吐槽了所谓的“SOTA”模型（如 Claude 和 ChatGPT）在处理代码整合任务时的表现不佳，而 Mistral-Large-Instruct-2047 模型却能在很少的指导下出色完成任务。此帖获得了众多关注，评论数众多。

讨论的焦点主要集中在不同语言模型的性能、优势和局限性上。有人表示自己的硬件无法运行 Mistral Large 2407 离线版，只能运行量化后的 Mistral Small 并在周末成功用于个人项目。还有人认为能够离线使用模型非常酷，能避免在线搜索时的大量广告和低质量内容。

有用户指出，ChatGPT 和 Claude 的最大问题是上下文窗口大小，需要通过 API 途径并按令牌付费才能使用更大的上下文窗口，而本地模型则可以有多达 128K 令牌可供使用，这在处理大型代码库时非常重要。

一些用户分享了自己使用不同模型的个人经历。比如有人对 Mistral 模型最为喜爱，认为其在很多方面表现出色，尤其是在处理复杂任务时；也有人认为 Nemotron 在某些方面表现较好，但在复杂任务和创意写作方面不如 Mistral Large 2。

关于模型的限制和审查问题也引起了激烈讨论。有人对 SOTA 模型的限制性表示不满，例如某些问题被拒绝回答，甚至给出道德评判。但也有人认为需要有一定的限制，随着模型的发展这些问题会逐渐改善。

有人提出像 MoE 这样的混合响应方式是否有效，也有人认为公众需要学习 LLM 素养。

总的来说，这次讨论展现了用户对各种语言模型的多样看法和期望，也反映出在模型发展过程中存在的诸多问题和挑战。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#