原贴链接

嘿，r/LocalLLaMA社区的朋友们！我一直在努力解决我们很多人在使用本地模型运行RAG（检索增强生成）系统时面临的一个常见问题——幻觉（模型虚构内容）。虽然我们本地托管的大型语言模型（LLM）令人印象深刻，但在使用RAG时，它们仍然容易编造内容，特别是在运行上下文窗口有限的较小模型时。我发布了一个开源的幻觉探测器，它被专门设计得足够高效，可以在消费级硬件上与本地LLM一起运行。与其他需要额外LLM API调用（这会增加延迟并且通常有外部依赖）的解决方案不同，这是一个基于轻量级Transformer的分类器。技术细节：基于现代BERT架构；推理速度：在CPU上约每秒1个示例，在普通GPU上约每秒10 - 20个示例；零外部API依赖——完全本地运行；可与任何LLM输出配合使用，包括Llama - 2、Llama - 3、Mistral、Phi - 3等；可轻松与LlamaIndex、LangChain或自定义RAG管道集成。它的工作原理是：探测器根据检索到的上下文评估LLM的响应，以识别模型何时生成了源材料中不存在的信息。在RAGTruth基准测试中，召回率达到80.7%，在数据到文本任务上表现尤其出色。本地设置集成示例：从adaptive_classifier导入AdaptiveClassifier；加载幻觉探测器（下载一次，之后本地运行）；然后是现有RAG管道的操作示例；将结果格式化为探测器所需格式；检查是否有幻觉；如果有幻觉则给出警告。这个探测器是adaptive - classifier库的一部分，该库还有根据查询复杂性在不同本地模型之间进行路由的工具。最后是对社区的提问，如如何解决本地RAG设置中的幻觉问题等，还给出了项目的GitHub地址、文档地址和安装命令。

讨论总结

原帖介绍了一种针对本地RAG设置的开源幻觉探测器，不需要额外LLM调用。评论者从多方面展开讨论，有人不是RAG用户但提供了幻觉排行榜链接及其中低幻觉声称的模型寻求确认；有人对探测器感兴趣并询问Open WebUI的安装教程；还有人认可探测器并探讨其在AnythingLLM的应用场景等，整体氛围积极正面，大家都在探索探测器的相关特性与应用。

主要观点

👍 通过特定方式减少本地RAG设置中的幻觉
- 支持理由：[格式和在较长上下文中保留所需，温度设为0和使用好的模型可显著减少幻觉]
- 反对声音：[无]
🔥 对开源幻觉探测器感兴趣
- 正方观点：[探测器有诸多优点，如不需要额外LLM调用等，看起来很有趣]
- 反方观点：[无]
💡 标记级别的探测器有用
- 支持理由：[原帖作者肯定其有用性]
- 反对声音：[无]
💡 可利用现有代理将探测器添加到Open WebUI
- 支持理由：[回复者表示可以利用现有代理操作]
- 反对声音：[无]
💡 利用引用会更快更有效
- 支持理由：[评论者认为利用基于事实的RAG引用可提高效率]
- 反对声音：[无]

金句与有趣评论

“😂 here is hallucination leaderboard: https://github.com/vectara/hallucination - leaderboard”
- 亮点：[为解决本地RAG幻觉问题提供了一个参考资源]
“🤔 Fade78: Can you make an installation tutorial for Open WebUI (https://docs.openwebui.com/category/-tutorials) or, even better, lobby them so they put it directly in the configuration, like they did for reranking?”
- 亮点：[表达了对将探测器应用到Open WebUI的期待并提出建议]
“👀 在我的24GB 3090上，Qwen 2.5 Q4KM+16K上下文+系统开销留下大约2GB VRAM，如果能留在系统RAM中就更好了。（128GB，大约50 - 75%空闲）”
- 亮点：[以实际硬件为例说明了辅助模型的资源预算情况]

情感分析

[总体情感倾向积极正面。主要分歧点较少，大家基本都在围绕探测器的特性、应用场景等进行积极的探讨，可能是因为这是一个新的且实用的开源项目，大家对新事物充满好奇并希望能够更好地利用它]

趋势与预测

新兴话题：[探测器在更多类似AnythingLLM等应用中的实际应用效果]
潜在影响：[可能会推动本地RAG设置中幻觉处理技术的发展，提高相关应用的准确性和效率]

详细内容：

《轻量幻觉检测器为本地 RAG 装置带来新变革》

在 Reddit 的 r/LocalLLaMA 板块，有一篇备受关注的帖子引起了大家的热烈讨论。该帖子介绍了一款新发布的开源幻觉检测器，旨在解决本地模型运行 RAG 系统时常见的幻觉问题。此帖获得了众多点赞和大量评论。

帖子主要内容为：作者称尽管本地托管的 LLMs 表现出色，但在使用 RAG 时仍会产生幻觉，尤其是运行较小模型和有限上下文窗口时。而这款新的幻觉检测器是基于现代 BERT 架构的轻量变压器分类器，可在消费级硬件上与本地 LLMs 一同运行，无需额外的 LLM API 调用，具有零外部 API 依赖、速度快等优点，适用于多种 LLM 输出，且易于集成。作者还提供了示例集成代码，并向社区提出了一些问题，如大家如何在本地 RAG 装置中解决幻觉问题、令牌级检测器是否有用以及对这类辅助模型的资源预算等。

讨论焦点与观点众多。有人虽不是 RAG 用户，但提供了幻觉排行榜的链接，并对某模型提出疑问。有人表示会尝试某模型，还有人希望能为 Open WebUI 制作安装教程或让其直接内置，也有人认为可以通过代理来实现集成。有人分享了在特定硬件配置下的个人经历。还有人探讨了不同嵌入模型或相似性指标对检测器准确性的影响。有人一直期待类似基于引用和扎根 RAG 的功能，并提及相关链接。

通过这次讨论，大家对于解决本地 RAG 系统的幻觉问题各抒己见，为进一步优化和应用相关技术提供了多样的思路。但如何更好地整合这些方案，以及如何平衡检测器的性能和资源需求，仍是需要深入探讨的问题。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#