原贴链接

嗨,我是新手。我在Linux系统上使用LM Studio,搭配RTX 3070显卡(8GB显存)、锐龙7 3700x处理器和32GB内存。我正在海量的现有不同大型语言模型(LLM)中寻找一些不错的模型。当然,在保持准确性的同时速度越快越好,我觉得在我的系统上至少要达到10 - 15个token/秒是必须的,但我知道如果能单独使用GPU的话,速度会快很多,大约能达到65个token/秒。我在寻找一个比较通用的模型,在功能范围上和早期的GPT版本比较接近的。首先,我希望这个模型在英语和法语(我是法国人)上表现良好,不太关心其他语言。它需要在很多主题(小众和大众的)上有广泛多样的知识库。它应该有足够好的编码能力,也能够做文档、摘要、聊天和写故事。最后,它需要是无审查的或者有可用的无审查版本。我希望这个大型语言模型(LLM)有一点个性,不需要很夸张,就是不想感觉像是在和百科全书对话。另一方面,我不希望它很固执地认为自己肯定是对的而我是错的。它还需要能够正确地呈现信息,处理markdown等格式。我已经试过Gemma2 9B Instruct,它相当不错,但尽管我有足够的显存,而且LM Studio显示我应该能够完全将其卸载到GPU,但在42层中只能加载40层,之后就无法初始化了,这与完全卸载到GPU的模型相比,大大降低了模型速度。

讨论总结

原帖作者是新手,拥有特定硬件配置(RTX 3070等),正在寻找8GB VRAM以下的LLM模型,要求模型在英法语表现、知识储备、编码能力等多方面表现良好且最好无审查等。评论者们积极回应,推荐了如mistral ministral 8b、qwen2.5 7b、llama3.1 8b、Llama 3.2 8B等模型,还有人分享自己的硬件使用经验、模型速度情况,以及与模型相关的其他信息,讨论氛围和谐积极。

主要观点

  1. 👍 推荐mistral ministral 8b模型适配原帖主的GPU。
    • 支持理由:能适配原帖主的GPU,并且法国的模型在法语方面表现可能较好且大多无审查。
    • 反对声音:无。
  2. 🔥 推荐qwen2.5 7b模型以适配原帖需求。
    • 正方观点:能够完全适配原帖作者的GPU,还可针对特定任务尝试其变体。
    • 反方观点:无。
  3. 💡 与原帖作者有相似配置并分享使用模型的速度。
    • 解释:分享自己的使用体验,给原帖作者提供参考。
  4. 💡 自己的3070显卡运行模型速度不超过40t/s左右,希望原帖作者告知能获得更快速度的方法。
    • 解释:以自身情况为基础与原帖作者交流模型速度相关的问题。
  5. 💡 向原帖寻求适合8GB显存模型的作者推荐Llama 3.2 8B。
    • 解释:直接针对原帖作者的需求推荐模型。

金句与有趣评论

  1. “😂 8b will fit in your gpu, 12b wont but should still be fairly fast.”
    • 亮点:简洁明了地指出两个模型与原帖主GPU的适配情况。
  2. “🤔 Try qwen2.5 7b or llama3.1 8b "
    • 亮点:直接给出模型推荐,为原帖主提供选择。
  3. “👀 LM Studio does require RAM on its own, and you should be JIT Loading (in the newest version) and minimizing to your tray to help with the memory constraints.”
    • 亮点:提供关于LM Studio内存管理的有用信息。
  4. “😎 Have you tried Llama 3.2 8B?”
    • 亮点:针对原帖主需求直接推荐模型。
  5. “🤓 我有一个3070,模型运行速度从未超过40t/s左右。如果您能获得更快的速度,请回复并告诉我您是如何做到的?”
    • 亮点:以自身情况引出关于模型速度提升的交流。

情感分析

总体情感倾向为积极正面。主要分歧点较少,评论者们大多围绕着模型推荐和使用经验分享等内容展开交流。可能的原因是原帖主明确的需求以及社区良好的交流氛围,大家都在积极地为原帖主提供帮助。

趋势与预测

  • 新兴话题:寻找擅长工具调用功能的模型可能会引发后续讨论。
  • 潜在影响:有助于新手在众多LLM模型中选择适合自己硬件配置的模型,推动LLM模型在特定硬件条件下的有效应用。

详细内容:

标题:寻找 8GB VRAM 以下的最佳模型

在 Reddit 上,有一篇关于“Best models under 8GB of VRAM?”的热门讨论引起了众多用户的关注。该帖子获得了大量的点赞和众多评论。

原帖中,一位新手用户使用 RTX 3070 显卡(8GB VRAM)、Ryzen 7 3700x 以及 32GB 内存的 Linux 系统,试图在众多不同的大型语言模型(LLM)中寻找适合自己的好模型。他提出了一系列要求,包括在英语和法语方面表现出色、具备广泛且多样的知识基础、能够良好编码和进行文档编写、总结、聊天以及写故事,并且要有一定个性,不能过于僵化,还需要能够正确处理 Markdown 等。同时,他还分享了自己试用 Gemma2 9B Instruct 的经历,指出尽管有足够 VRAM,但仍存在初始化失败导致速度显著下降的问题。

这一帖子引发了多方面的讨论。核心问题在于如何在 8GB VRAM 的限制下找到性能与功能兼顾的理想模型。

在讨论中,有人建议试试 mistral ministral 8b 和 mistral nemo 12b,称 8b 适合其 GPU,12b 虽不适合但速度仍较快,且在法语方面表现出色。还有人推荐 qwen2.5 7b 或 llama3.1 8b ,认为这些能完全适配 GPU。也有人提到自己与楼主配置相似,并提供了一张详细的模型信息表格。另外,有人表示自己的 3070 显卡模型运行速度约 40t/s 左右,而有人则称自己用 2080 显卡能达到 50+的速度,并分享了具体模型如 Llama3 8B 在 Q5_K_M 下能达到 52 tok/s。还有人建议试试 Llama 3.2 8B 。

这些观点充分展现了大家在寻找适合低 VRAM 模型过程中的探索和经验。不同用户根据自身实践给出了多样的建议,但也存在对同一模型在不同配置下表现的争议。共识在于都在努力为楼主提供有价值的参考,以帮助其找到理想的模型。特别有见地的观点如详细的模型性能对比和实际使用经验,丰富了讨论内容,为大家提供了更多的思考方向。

总之,这场讨论为那些在有限 VRAM 条件下追求高性能模型的用户提供了宝贵的参考和思路。