原贴链接

嗨，我是新手。我在Linux系统上使用LM Studio，搭配RTX 3070显卡（8GB显存）、锐龙7 3700x处理器和32GB内存。我正在海量的现有不同大型语言模型（LLM）中寻找一些不错的模型。当然，在保持准确性的同时速度越快越好，我觉得在我的系统上至少要达到10 - 15个token/秒是必须的，但我知道如果能单独使用GPU的话，速度会快很多，大约能达到65个token/秒。我在寻找一个比较通用的模型，在功能范围上和早期的GPT版本比较接近的。首先，我希望这个模型在英语和法语（我是法国人）上表现良好，不太关心其他语言。它需要在很多主题（小众和大众的）上有广泛多样的知识库。它应该有足够好的编码能力，也能够做文档、摘要、聊天和写故事。最后，它需要是无审查的或者有可用的无审查版本。我希望这个大型语言模型（LLM）有一点个性，不需要很夸张，就是不想感觉像是在和百科全书对话。另一方面，我不希望它很固执地认为自己肯定是对的而我是错的。它还需要能够正确地呈现信息，处理markdown等格式。我已经试过Gemma2 9B Instruct，它相当不错，但尽管我有足够的显存，而且LM Studio显示我应该能够完全将其卸载到GPU，但在42层中只能加载40层，之后就无法初始化了，这与完全卸载到GPU的模型相比，大大降低了模型速度。

讨论总结

原帖作者是新手，拥有特定硬件配置（RTX 3070等），正在寻找8GB VRAM以下的LLM模型，要求模型在英法语表现、知识储备、编码能力等多方面表现良好且最好无审查等。评论者们积极回应，推荐了如mistral ministral 8b、qwen2.5 7b、llama3.1 8b、Llama 3.2 8B等模型，还有人分享自己的硬件使用经验、模型速度情况，以及与模型相关的其他信息，讨论氛围和谐积极。

主要观点

👍 推荐mistral ministral 8b模型适配原帖主的GPU。
- 支持理由：能适配原帖主的GPU，并且法国的模型在法语方面表现可能较好且大多无审查。
- 反对声音：无。
🔥 推荐qwen2.5 7b模型以适配原帖需求。
- 正方观点：能够完全适配原帖作者的GPU，还可针对特定任务尝试其变体。
- 反方观点：无。
💡 与原帖作者有相似配置并分享使用模型的速度。
- 解释：分享自己的使用体验，给原帖作者提供参考。
💡 自己的3070显卡运行模型速度不超过40t/s左右，希望原帖作者告知能获得更快速度的方法。
- 解释：以自身情况为基础与原帖作者交流模型速度相关的问题。
💡 向原帖寻求适合8GB显存模型的作者推荐Llama 3.2 8B。
- 解释：直接针对原帖作者的需求推荐模型。

金句与有趣评论

“😂 8b will fit in your gpu, 12b wont but should still be fairly fast.”
- 亮点：简洁明了地指出两个模型与原帖主GPU的适配情况。
“🤔 Try qwen2.5 7b or llama3.1 8b "
- 亮点：直接给出模型推荐，为原帖主提供选择。
“👀 LM Studio does require RAM on its own, and you should be JIT Loading (in the newest version) and minimizing to your tray to help with the memory constraints.”
- 亮点：提供关于LM Studio内存管理的有用信息。
“😎 Have you tried Llama 3.2 8B?”
- 亮点：针对原帖主需求直接推荐模型。
“🤓 我有一个3070，模型运行速度从未超过40t/s左右。如果您能获得更快的速度，请回复并告诉我您是如何做到的？”
- 亮点：以自身情况引出关于模型速度提升的交流。

情感分析

总体情感倾向为积极正面。主要分歧点较少，评论者们大多围绕着模型推荐和使用经验分享等内容展开交流。可能的原因是原帖主明确的需求以及社区良好的交流氛围，大家都在积极地为原帖主提供帮助。

趋势与预测

新兴话题：寻找擅长工具调用功能的模型可能会引发后续讨论。
潜在影响：有助于新手在众多LLM模型中选择适合自己硬件配置的模型，推动LLM模型在特定硬件条件下的有效应用。

详细内容：

标题：寻找 8GB VRAM 以下的最佳模型

在 Reddit 上，有一篇关于“Best models under 8GB of VRAM?”的热门讨论引起了众多用户的关注。该帖子获得了大量的点赞和众多评论。

原帖中，一位新手用户使用 RTX 3070 显卡（8GB VRAM）、Ryzen 7 3700x 以及 32GB 内存的 Linux 系统，试图在众多不同的大型语言模型（LLM）中寻找适合自己的好模型。他提出了一系列要求，包括在英语和法语方面表现出色、具备广泛且多样的知识基础、能够良好编码和进行文档编写、总结、聊天以及写故事，并且要有一定个性，不能过于僵化，还需要能够正确处理 Markdown 等。同时，他还分享了自己试用 Gemma2 9B Instruct 的经历，指出尽管有足够 VRAM，但仍存在初始化失败导致速度显著下降的问题。

这一帖子引发了多方面的讨论。核心问题在于如何在 8GB VRAM 的限制下找到性能与功能兼顾的理想模型。

在讨论中，有人建议试试 mistral ministral 8b 和 mistral nemo 12b，称 8b 适合其 GPU，12b 虽不适合但速度仍较快，且在法语方面表现出色。还有人推荐 qwen2.5 7b 或 llama3.1 8b ，认为这些能完全适配 GPU。也有人提到自己与楼主配置相似，并提供了一张详细的模型信息表格。另外，有人表示自己的 3070 显卡模型运行速度约 40t/s 左右，而有人则称自己用 2080 显卡能达到 50+的速度，并分享了具体模型如 Llama3 8B 在 Q5_K_M 下能达到 52 tok/s。还有人建议试试 Llama 3.2 8B 。

这些观点充分展现了大家在寻找适合低 VRAM 模型过程中的探索和经验。不同用户根据自身实践给出了多样的建议，但也存在对同一模型在不同配置下表现的争议。共识在于都在努力为楼主提供有价值的参考，以帮助其找到理想的模型。特别有见地的观点如详细的模型性能对比和实际使用经验，丰富了讨论内容，为大家提供了更多的思考方向。

总之，这场讨论为那些在有限 VRAM 条件下追求高性能模型的用户提供了宝贵的参考和思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#