原贴链接

嗨，r/LocalLLaMA的朋友们，我是个长期潜水者。和你们很多人一样，我非常热衷于在本地运行大语言模型（LLM），并进行像检索增强生成（RAG）这样有趣的实验。我一直觉得有件事比较麻烦，那就是为了RAG从网络获取干净、可用的数据到我的LLM中。混乱的HTML、大量的样板代码以及缓慢的抓取……听起来很熟悉吧？所以，我用Go语言编写了一个小工具，叫LexiCrawler，我想你们中的一些人可能也会觉得它有用。本质上，它是一个简单的API，你可以指向一个URL，它就会输出干净的Markdown格式的内容，随时可用于你的LLM。为什么这对本地LLM爱好者来说可能很有趣呢？速度：它是用Go编写的，所以速度相当快。老实说，我觉得这可能是我所找到的通过URL获取互联网RAG数据的最快方式（不过我可能有偏见）。LLM友好的Markdown：不用再和HTML作斗争了！Markdown干净、结构清晰，LLM很喜欢。内置可读性：它使用一个可读性库来自动去除网站上的所有杂乱内容（导航、广告等），这样你就能得到有用的东西——实际的内容。能够处理现代网站（JavaScript）：它甚至可以渲染JavaScript，所以它能从那些普通爬虫有时会遗漏的动态网站抓取内容。如果你想试用而不需要自己编译任何东西，我已经在发布页面准备好了Linux和Windows的二进制文件：https://github.com/h2210316651/lexicrawler/releases。它仍然很基础，我也在边做边学。如果你正在玩本地LLM和RAG，也许这个可以为你节省一些时间。我非常欢迎任何反馈、想法或者功能建议！这是一个开源项目，也欢迎贡献！告诉我你的想法吧！愉快地玩LLM！

讨论总结

原帖作者介绍了自己开发的LexiCrawler工具，该工具可将网页数据转换为干净的Markdown格式供本地LLM使用，具有多种优点并提供了二进制文件下载地址。评论者们大多表示认可和感谢，有人提出了关于项目的一些建议，如添加许可证等，也有人分享了自己在相关领域的思考或正在使用的类似工具，还有人表示对该工具感兴趣并打算试用。整体氛围积极且具有建设性。

主要观点

👍 认可工具并感谢分享
- 支持理由：原帖分享的工具看起来有用，对在本地运行LLM并做相关实验的人有帮助。
- 反对声音：无。
🔥 提出项目改进建议
- 正方观点：这些建议有助于完善项目，使其更规范、易用。
- 反方观点：无。
💡 认为需要小型分类器模型或微调后的模型确定网页主要内容
- 解释：有助于更精准地获取网页主要内容，是在网页数据获取方面的深入思考。
🤔 介绍自己正在使用的类似工具primp
- 解释：为大家提供了另一种相关工具的信息，拓展了视野。
😎 对LexiCrawler工具感兴趣并打算试用
- 解释：工具的功能和描述吸引了评论者，使其想亲自体验。

金句与有趣评论

“😂 Looks interesting, thanks for sharing.”
- 亮点：简洁表达对工具的兴趣和感谢，是比较典型的积极反馈。
“🤔 我认为我们需要的是一个小型分类器模型或者也许像一个微调后的SLM来确定什么分类器包含页面上的主要内容。”
- 亮点：提出了在网页数据获取方面的独特见解。
“👀 Always happy to see more projects like this!”
- 亮点：表达对这类项目的欢迎态度。
“😉 Sure will work on them ASAP”
- 亮点：原帖作者积极对待评论者提出的建议。
“👍 done”
- 亮点：表明原帖作者已经完成了部分建议相关的操作。

情感分析

总体情感倾向为积极正面。主要分歧点很少，几乎没有反对声音。可能的原因是原帖分享的工具具有一定的实用性，并且原帖作者态度积极开放，欢迎大家提出建议，评论者们也大多是在同一社区内对相关话题感兴趣的人。

趋势与预测

新兴话题：在网页数据获取时如何更好地确定主要内容可能会引发后续讨论。
潜在影响：如果LexiCrawler工具得到进一步完善和推广，可能会对本地LLM相关的开发和应用产生积极的推动作用，提高获取网页数据的效率。

详细内容：

《Reddit 上备受关注的本地 LLMs 网络数据抓取工具 LexiCrawler 》

在 Reddit 的 r/LocalLLaMA 板块，一位长期潜水的用户发布了一则引人注目的帖子。帖子介绍了其用 Go 语言编写的名为 LexiCrawler 的工具，并表示这个工具或许能为本地 LLMs 及相关实验提供帮助。该帖获得了众多关注，评论数众多。

帖子引发的主要讨论方向包括对工具的评价、改进建议以及个人使用计划等。文章将要探讨的核心问题是这款工具的实用性以及未来的发展潜力。

在讨论中，有人认为这个工具看起来很有趣，并给出了一些实用的建议。比如，[s-kostyaev] 提出：要添加许可证文件到代码库；仅在发布页面提供二进制文件，从代码库中移除；从代码库中移除 .crawler_cache；使软件包可通过 go - get 获取；提供 Docker 镜像，这对集成非常有用。作者表示会尽快处理这些建议。

有人分享了自己对于此类工具的思考和想法，如 [mr_happy_nice] 认为需要一个小型分类器模型或者经过微调的 SLM 来确定网页上的主要内容，可能需要抓取大量 HTML 并手动标记主要内容等。

还有人提到自己一直在使用类似的工具，如 [VoidAlchemy] 提到一直在使用一个基于 Rust 的 Python 库 primp ，认为这些都是构建本地 AI 聊天应用不可或缺的工具，并对作者分享的 LexiCrawler 表示感谢。作者回应很高兴能有所帮助，希望能在 Github 上获得更多支持。

有人表示明天会尝试使用这个工具，如 [qado] 。也有人单纯表达了感谢，如 [robotoast] 。

总的来说，关于 LexiCrawler 工具的讨论呈现出多样化的观点和建议，既肯定了其创新性和实用性，也提出了一些有待改进和完善的地方。相信在大家的共同关注和努力下，这款工具会不断发展和优化。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#