嘿,r/LocalLLaMA!最近看到很多关于小语言模型(LLM)的讨论。我很好奇这些小模型在本地RAG(检索增强生成)方面实际能做什么,因为很多人想在不将文档上传到Claude或OpenAI的情况下与文档聊天。我在我的MacBook Pro(M1 Pro)上构建并测试了本地RAG设置。基本设置包括Nomic的嵌入模型、Llama3.2 3B指令模型、Langchain RAG工作流、Nexa SDK嵌入与推理、Chroma DB等,代码和技术栈在GitHub上开源。测试NVIDIA 2025年第二季度财务报告发现,基本问答效果比预期好,PDF加载速度极快(不到2秒),简单信息检索比Claude 3.5 Sonnet略快,处理同一文档不同部分的信息组合能力较好,但处理复杂内容(如比较不同部分的年同比增长并解释趋势)时小模型(这里是Llama3.2 3B)就不行了。使用LoRA(低秩适应)来拓展小模型的极限,制作搜索优化的微调或LoRA很耗时,我为生成饼图和柱状图训练了特定的适配器,并使用Octopus_v2动作模型作为任务路由器。结果是有效的,例如询问PDF中的收入数字能通过RAG获取数据,说制作饼图就能切换到可视化模式并生成图表。虽然这些LoRA很基础,但暗示可以在本地RAG系统中让一个小的基础模型(3B)通过不同的LoRA插件执行特定任务。我已开源所有内容,使用时需要知道一些事项,并且我还在进行一些后续工作。最后我提出了一些问题,如这种LoRA方法与使用大模型相比如何等。
讨论总结
原帖作者测试了1B/3B小LLMs在本地RAG的能力,分享了设置、成果、局限和改进计划,并提出相关问题。评论者们的讨论涉及多个方面,包括各自的使用场景、对原帖提到的技术如LoRA的看法、对模型性能的疑惑与探讨,整体氛围积极,多数对原帖表示肯定并分享了自己的见解或经验。
主要观点
- 👍 小型LLMs在本地RAG中有一定实用价值
- 支持理由:基本问答效果不错、文档信息检索较快、能处理简单任务。
- 反对声音:处理复杂任务时表现不佳。
- 🔥 LoRA技术可提升小模型能力且应用方式多样
- 正方观点:可以像插件一样为小模型增加特定任务能力,如生成图表。
- 反方观点:无明显反对,部分人对LoRA训练方式等有疑问。
- 💡 不同模型适用于不同场景
- 解释:如小型模型适合简单问答、特定领域通过LoRA可处理特定任务,大型模型可能在复杂任务有优势。
- 👍 原帖内容有参考价值
- 支持理由:提供了代码、项目详细记录,可作为入门参考。
- 反对声音:无。
- 💡 对原帖项目提出改进建议
- 解释:如降低温度提升准确性、尝试不同的嵌入模型或搜索方式等。
金句与有趣评论
- “😂 Ylsid:My use case would be finding rules for board games and tabletop RPGs when I only have a vague idea of what the rule does, or the name.”
- 亮点:提出了一个具体且独特的小模型应用场景。
- “🤔 jadbox:I love the hat analogy with swapping LoRAs! I think Apple’s AI might be aiming to do something similar”
- 亮点:对原帖中LoRA交换的类比表示喜爱并关联到苹果AI。
- “👀 JadeSerpant:Wait, how are the Nomic embeddings only 137M params? That seems very tiny doesn’t it?”
- 亮点:针对原帖中的模型参数提出疑惑,引发后续讨论。
- “😂 iamlazyboy:Personally I started implementing (more like experimenting, I’m new to local LLMs and I’m still learning stuff) a RAG containing multiple guides and datas of a single game and use it as personal guide like ask it "what’s the weakness of this enemy" and it gives me the weakness and classes that can be useful against this enemy”
- 亮点:分享自己在本地LLMs和RAG方面的有趣实践经历。
- “🤔 unseenmarscai:137M parameters isn’t tiny for an embedding model! Embedding models are naturally much smaller than LLMs since they only convert text to vectors, rather than generating text and reasoning.”
- 亮点:对关于模型参数疑惑给出合理的解释。
情感分析
总体情感倾向积极。主要分歧点较少,部分在于对模型性能(如小模型处理复杂任务能力、不同模型在特定任务的表现)的看法不同,以及对原帖中一些技术点(如嵌入模型参数大小、LoRA训练等)存在疑惑或不同理解。这可能是因为评论者各自的背景、使用场景和对技术的熟悉程度不同。
趋势与预测
- 新兴话题:将phi - 3.5 vision用于本地RAG的图像和图表读取、不同搜索方式(如混合稀疏嵌入搜索)在本地RAG中的应用。
- 潜在影响:对本地RAG技术的发展和优化有推动作用,有助于提升小型LLMs在各种场景(如教育辅助、文档查询等)中的应用效果,促进相关领域更高效地利用小模型资源。
详细内容:
标题:探索小型 LLMs 在本地 RAG 中的表现及可能性
最近,Reddit 上关于小型 LLMs 的讨论热度颇高,特别是在 r/LocalLLaMA 板块。有位用户分享了自己对小型 LLMs(1B/3B)在本地 RAG 中的测试成果,获得了众多关注,引发了广泛的讨论。
原帖中,作者在其 MacBook Pro(M1 Pro)上构建并测试了本地 RAG 系统,使用了 Nomic 的嵌入模型、Llama3.2 3B instruct 等,并开源了相关代码,链接为:https://github.com/NexaAI/nexa-sdk/tree/main/examples/Chat-with-PDF-locally 。
讨论焦点主要集中在以下几个方面:
- 小型模型的优势:基本的问答效果超出预期,PDF 加载速度快,简单信息检索甚至比 Claude 3.5 Sonnet 还快,能较好地整合同一文档不同部分的信息。 有人表示:“如果只是询问诸如‘NVIDIA 的总收入是多少?’这样的直接问题,它的表现非常出色。可以说就像是加强版的 Ctrl/Command+F 搜索。”
- 小型模型的局限:在处理复杂问题时,比如比较不同细分领域的年增长率并解释趋势,就会输出无意义的内容。
- LoRA 的应用:通过训练特定的适配器生成图表,使用任务路由器来切换不同的 LoRA 模式,取得了不错的效果。 有人提到:“想象一下,在需要时为一个小型基础模型(3B)配备不同的 LoRA‘插件’来完成特定任务,就像让它根据需要换上不同的‘帽子’。”
在讨论中,大家对于小型模型结合 LoRA 的方式看法不一。有人认为这是一种创新且有效的方法,比如有人说:“我喜欢用交换 LoRAs 的帽子类比!我认为苹果的人工智能可能也在试图做类似的事情。”但也有人担心其在实际应用中的稳定性和效果。
对于小型模型在本地 RAG 中的未来发展,大家也充满期待。有人希望它能够理解文档中的图像和图表,有人期待 LoRA 切换更高效,还有人希望它能更好地分解复杂问题。
你如何看待这种小型模型结合 LoRA 的方式?你又会在哪些场景中使用本地 RAG 呢?
感谢您的耐心阅读!来选个表情,或者留个评论吧!