原贴链接

经过数月努力,我制作了一个Python程序,它能将在Ollama上运行的本地大型语言模型(LLM)转变为在线研究员。只需输入一个问题或主题,然后等待,就会得到一个包含研究内容、来源链接和总结的文本文档,还能对其提问等。

我的项目功能: 这个自动研究员使用互联网搜索和网页抓取来收集信息,根据所选主题或问题,它会生成与主题相关的关注区域,以探索主题的各个方面,通过在线研究检索相关信息来回应主题或问题。LLM将查询分解为多达5个特定的研究焦点,根据相关性进行优先级排序,然后从最相关的开始,通过有针对性的网络搜索和内容分析系统地研究每个焦点。

在收集完搜索内容并耗尽所有焦点区域后,它会审查内容并利用其中的信息生成新的焦点区域,过去它经常根据已收集的研究内容发现新的相关焦点区域(例如特定案例研究,然后针对主题或问题专门查找相关内容),虽然这个程序还是个原型,但令人惊讶的是它确实有效。

主要特点:

  1. 根据发现持续生成新的研究焦点。
  2. 完整保存找到的每一条内容以及来源网址。
  3. 在完成时创建研究内容的综合摘要并用其回应原始查询/问题。
  4. 在提供摘要后进入对话模式,可以就研究结果提出特定问题,即使是摘要中未提及的内容,只要研究发现提供了相关信息就可以提问。
  5. 可以运行到LLM的上下文达到最大值,此时它将自动停止研究,但仍允许生成摘要和提问,也可以随时停止,这将导致生成摘要。
  6. 包括暂停功能以评估研究进展,确定是否收集了足够的信息,允许选择继续或终止研究并接收摘要。
  7. 适用于流行的Ollama本地模型(推荐phi3:3.8b - mini - 128k - instruct或phi3:14b - medium - 128k - instruct,这是我目前测试过且有效的模型)
  8. 所有操作都在本地机器上运行,但仍能通过单个查询从互联网获得结果,能在相对较短的时间内获得大量实际研究结果。

最好的部分是,可以让它在后台运行,回来时会发现一份详细的研究文档,包含数十个相关来源和提取的内容,都已整理好可供审查,还有相关发现的摘要,并且能够就这些发现向LLM提问。非常适合研究、难以研究的问题、不想自己深入探究的新奇问题,或者只是满足对复杂话题的好奇心。

带有完整说明和演示视频的GitHub仓库: [https://github.com/TheBlewish/Automated - AI - Web - Researcher - Ollama](https://github.com/TheBlewish/Automated - AI - Web - Researcher - Ollama) (使用Python构建,完全开源,应该适用于任何与Ollama兼容的LLM,尽管我只测试了phi3)

目标受众: 任何重视本地运行LLM的人,任何希望通过单一输入进行全面研究的人,任何喜欢AI创新和新奇用途(据我所知,即使大公司也尚未尝试)的人。 如果对AI感兴趣,对它能做什么、如何轻松使用它在线查找高质量信息感到好奇,就来看看吧。

对比: 与现有的程序和应用不同的是,它通过单个在线查询持续进行研究,可能进行数百次搜索,从每次搜索中收集内容,将内容保存到文档中并附上收集信息的每个网站的链接。 同样,数百次搜索都来自单个查询,而且不是随机搜索,每个搜索都经过深思熟虑,探索主题/查询的各个方面以收集尽可能多的可用信息。 它不仅收集信息,还对所有信息进行总结,在研究会话结束时提取收集到的信息的所有相关方面,遍历所有发现并给出与问题相关的重要部分。然后仍然可以就它发现的研究内容提出任何问题,它将使用收集到的任何信息来回答问题。 最重要的是,与ChatGPT等其他可以搜索互联网的服务相比,这个完全开源且100%在自己设备上本地运行,可以选择任何LLM模型,尽管我只测试了Phi3,其他模型可能也适用。

讨论总结

该讨论围绕着一个由作者创建的AI研究助手项目展开。多数评论者对项目表示认可,有很多人表达了想要测试的意愿,也有人给出了如添加功能、改进运行方式等方面的建议,同时涉及项目与不同工具的兼容性等话题,整体氛围积极且大家对这个项目充满期待。

主要观点

  1. 👍 对项目表示认可和肯定
    • 支持理由:项目功能新颖且实用,如能将本地LLM转变为在线研究员,进行网络搜索、内容抓取、保存来源、生成研究文档与总结并支持对话模式等。
    • 反对声音:无。
  2. 🔥 对项目提出改进建议
    • 正方观点:如增加对更多模型或API的支持、简化README内容、添加对Scihub的支持、添加Docker支持等建议有助于完善项目。
    • 反方观点:部分建议可能涉及到项目架构调整或者资源投入等问题,但未在评论中有明显体现。
  3. 💡 对项目测试情况的反馈
    • 在未使用推荐模型时可能出现如结果不理想、总结为空、问答失败等问题,但也有很多人表示还未测试但很期待测试。

金句与有趣评论

  1. “😂 fleiJ:Hm this is not how it works I guess😂”
    • 亮点:表达了对项目运行方式的疑惑,同时用幽默的表情增加了趣味性。
  2. “🤔 TheTerrasque:Looks nice. I haven’t really looked at the code yet, but some suggestions:”
    • 亮点:在未深入查看代码时就对项目外观表示认可并给出建议,比较理性客观。
  3. “👀 DomeGIS:Hey this is great, this was exactly what I was looking for!”
    • 亮点:直接表达项目正是自己所寻找的,体现项目的吸引力。

情感分析

总体情感倾向为积极。大部分评论者对项目表示认可、赞赏或者期待。主要分歧点在于项目的一些技术细节方面,如是否应该忽略robots.txt、是否要添加某些功能等。可能的原因是评论者各自的使用场景、技术背景和需求不同。

趋势与预测

  • 新兴话题:如添加更多功能(如对Scihub的支持、RAG技术的应用等)、项目与更多工具或API的兼容性等可能会引发后续讨论。
  • 潜在影响:如果项目不断完善,可能会对需要进行网络研究的用户提供很大帮助,改变人们获取信息和进行研究的方式,也可能对相关的AI研究领域产生一定的推动作用。

详细内容:

《创新 AI 研究助手在 Reddit 引发热议》

近日,Reddit 上一篇关于创建了一个能实际进行研究的 AI 研究助手的帖子引起了广泛关注。该帖子介绍了这个由 Python 编写、基于 Ollama 且完全开源、可在本地运行的程序,用户只需输入一个问题或主题,它就能自动搜索网络、抓取内容、保存来源并给出完整的研究文档和总结。此帖获得了大量的点赞和众多评论。

讨论焦点与观点分析:

有人认为这个项目很有创意,比如 [Fragrant-Purple504] 表示看到作者的努力并期待测试。但也存在一些问题和建议,例如 [No-Refrigerator-1672] 反馈用 Lamma3.2 和 Qwen2.5 测试时未按预期工作,[CuriousAustralianBoy] 则解释可能是未正确设置模型。

对于是否支持其他模型和 API,[TheTerrasque] 建议支持 OpenAI API,[bronkula] 则认为这与本地 LLM 使用的主旨不符。[TheTerrasque] 进一步列举了众多支持 OpenAI 端点的本地 LLM 解决方案。

有人提到在使用中遇到的困难,如 [solidsnakeblue] 表示在 Windows 上运行遇到“No Module Named ’termios’”错误,但通过与 ChatGPT 合作改写部分代码解决了问题。

关于程序的优化和改进,[GimmePanties] 提议忽略 robots.txt,[candre23] 担忧网络信息的真实性和来源验证过程。

共识方面,大家普遍认可这个项目的创新性,但在具体的功能实现和适用性上存在不同看法。

特别有见地的观点如 [CuriousAustralianBoy] 提到用户能直接查看研究文档中的每个来源,方便验证研究的真实性。

总之,这个 AI 研究助手在 Reddit 上引发了热烈讨论,大家既对其创新表示赞赏,也对其存在的问题和未来发展提出了各种见解和建议。