原贴链接

正在寻求推荐。我一直在使用API,但渴望回归本地运行的大语言模型。我将使用Ollama和OpenWebUI运行,模型用途为简单的通用用途,偶尔会有一些不太正规的请求。

讨论总结

原帖询问24GB VRAM下最佳无审查LLM,评论者们纷纷推荐自己认为不错的模型,如PersonalityEngine、Gemma 3 27B、abliterated gemma 3和abliterated mistal small等,并且分享了各自使用这些模型的体验,包括遇到的问题、模型的特性等,整体氛围活跃且充满干货。

主要观点

  1. 👍 推荐PersonalityEngine模型,是全能型且未见过拒绝回答的情况。
    • 支持理由:推荐者使用中未发现拒绝回答的情况。
    • 反对声音:无。
  2. 🔥 huihui - ai的abliterated模型在24GB VRAM、一般用途场景下表现好。
    • 正方观点:评论者自己探索使用时发现不错。
    • 反方观点:无。
  3. 💡 Gemma 3 27B模型输出可能完全错误。
    • 解释:有使用者尝试时遇到该问题。
  4. 💡 Mistral Small速度快且简洁,比Qwen模型更受部分人喜爱。
    • 解释:Qwen虽信息详细但有多余警告和建议。
  5. 💡 现成的Mistral比较好,被修改过的模型比较愚蠢。
    • 解释:使用者觉得Mistral开箱即用无审查限制,对修改过的模型不看好。

金句与有趣评论

  1. “😂 soorg_nalyd: Bros getting up to tomfoolery”
    • 亮点:以诙谐幽默的方式调侃原帖提问者可能有不良意图。
  2. “🤔 dinerburgeryum: Try [PersonalityEngine](https://huggingface.co/PocketDoc/Dans - PersonalityEngine - V1.2.0 - 24b), it’s a surprising jack - of - all - trades model that I’ve yet to see a refusal from.”
    • 亮点:强力推荐PersonalityEngine模型并强调其优势。
  3. “👀 tuxfamily: I have a preference for Mistral because it’s super fast and to the point, while Qwen offers more detailled information but includes some unnecessary warnings and recommendations.”
    • 亮点:清晰对比Mistral和Qwen模型的优缺点。
  4. “😎 AsliReddington:Off the shelf Mistral, these abliterated ones are pretty stupid”
    • 亮点:鲜明表达对现成Mistral和被修改模型的态度。
  5. “🤨 My_Unbiased_Opinion: Currently using QwQ Abliterated and for some reason it keeps my GPU pegged 100 for a few mins after response.”
    • 亮点:指出QwQ Abliterated模型存在GPU占用问题。

情感分析

总体情感倾向为积极,大家都在积极分享自己的经验和推荐模型。主要分歧点在于对不同模型的评价,例如对Mistral模型和被修改模型的看法不同,原因是大家使用模型的场景、需求以及对模型特性的关注点不同。

趋势与预测

  • 新兴话题:可能会有更多关于不同模型的基准测试的讨论,以及如何更好地调整模型参数来优化性能。
  • 潜在影响:有助于更多人在选择24GB VRAM下的无审查LLM时做出更合适的决策,推动相关模型的优化和发展。

详细内容:

标题:寻找 24GB VRAM 下的最佳无审查 LLM 模型

在 Reddit 上,一个题为“ What is currently the best Uncensored LLM for 24gb of VRAM?”的帖子引起了众多关注,收获了大量的点赞和评论。该帖主表示一直在使用 API,但想回归本地 llama,将使用 Ollama 与 OpenWebUI,模型用途为通用目的,偶尔会有一些敏感请求。

讨论的焦点主要集中在各种推荐的模型上。有人推荐尝试PersonalityEngine,称其是全能型模型。有人分享目前使用 QwQ Abliterated 时,GPU 会在响应后 100%使用率持续几分钟。还有人提到相同的设置有相同的 bug,某些思维模型会引发这种副作用。有人认为某个模型在自己看来是顶级的,从角色扮演到重大政治事件都能应对。也有人最近探索了这个问题,对于通用用途且使用单个 RTX 3090(24GB)的情况,发现来自“huihui - ai”的 abliterated 模型特别好,并提供了相关链接。有人称 QwQ 是最好的,但也存在 GPU 使用率的问题。有人使用 exllamav2/exui,所以无法解决 GPU 使用率的问题。有人认为未 abliterated 的版本实际上更好,通过精心措辞的提示能突破限制。

有人喜欢 Gemma 3 27B 的不同版本,也有人指出 Gemma 3 并非无审查的。有人表示应检查温度等参数的配置,因模型而异。有人称使用某个模型没有问题,并分享了尝试其他版本的经历。有人提到某个模型的输出完全崩溃,寻求建议。有人分享了一个 satanic 模型的链接。有人认为某个个体在消融 Gemma 模型方面很有经验。有人尝试了 Abliterated Gemma 3 ggufs,发现微调差异很大但总体不错。有人提供了相关的基准测试链接。有人称自己测试某个模型时,得到的是紧急号码。有人表示还未找到可靠的无审查模型,有人则很喜欢 Mistral Small。有人认为现成的 Mistral 容易“越狱”或谈论任何话题。

总之,关于 24GB VRAM 下的最佳无审查 LLM 模型,大家各抒己见,讨论热烈,但仍未形成明确的共识。到底哪个模型才是最优选择,还需要根据用户的具体需求和使用体验来判断。