原贴链接

嗨!我正在做一个名为V.I.S.O.R.(或VISOR)的语音助手项目,并通过llama.cpp将Llama3集成到安卓(https://github.com/Edw590/VISOR—Android-Version-Assistant)和桌面/服务器(Windows/Linux均适用,https://github.com/Edw50/VISOR—A -Voice -Assistant)版本中。该助手需要一个服务器来实现完整功能(路由器上需开放端口),我一直在树莓派5(8GB)上进行测试 - 速度不是很快,但能运行!

关于V.I.S.O.R.的要点:

  • 它不是一个“简单的助手”(例如,终端助手或者简单的聊天助手)。并且随着时间推移它会变得更复杂。我希望有一天它能成为一个功能齐全的助手。
  • 安卓应用(自2020年开始开发)是完全语音控制的 - 但用户界面仍需改进。电脑版本较新且开发程度较低。
  • 易于创建模块:可以通过简单的模块添加功能。
  • 聊天功能方面,除了与大型语言模型正常对话外,还包括从WolframAlpha或维基百科获取和总结信息(不过在我的树莓派上从维基百科总结信息太慢了,所以我禁用了这个功能)。
  • 我一直在用这个Llama3模型(https://huggingface.co/bartowski/Meta -Llama -3 -8B -Instruct -GGUF/blob/main/Meta -Llama -3 -8B -Instruct -Q4_K_M.gguf)进行测试。

目前我让Llama3对我给应用的命令作出回应(命令识别是由我的自定义识别器完成的,它可以识别复杂句子,完全不需要标点符号)。我也让Llama3做好了聊天的准备。挑战在于我还没弄清楚如何在聊天和命令响应模式之间切换(我想我读到过一些关于上下文切换的内容?)。

当前与大型语言模型相关的任务(还有其他任务):

  • 将命令识别与Llama3的响应集成。理想情况下,我希望大型语言模型能自然地对我的命令作出回应(例如,“打开Wi - Fi”),同时我的识别器在后台获取并发送命令执行,替换硬编码字符串。
  • 分析:我希望V.I.S.O.R.能像ChatGPT那样记住个人细节,而不必每次都通过系统提示输入。关于如何实现这一点,有什么建议吗?

如果有人有兴趣对V.I.S.O.R.的任何部分进行贡献、合作或将其集成到另一个项目中,请尽管来!我也一直对如何处理它的新想法持开放态度!我的长期目标是让它控制我未来的智能家居。自从2017年我开始编写这个代码以来,我就一直想着贾维斯(JARVIS)。

如果有人想试用它,要是自述文件不清楚的话,我很乐意帮忙设置!(你只需要安装Go和安卓工作室来构建电脑(客户端/服务器)和安卓应用)。如果你碰巧喜欢这个项目并想保持更新,请在GitHub上给它点赞并关注它!

讨论总结

这是关于一个名为VISOR的语音助手项目开发的讨论,作者正在将Llama3集成到该项目的安卓和桌面/服务器版本中。评论者们有多种反应,包括询问项目相关的模型权重和数据集发布、微调模型等问题,有表示想为项目做贡献的,有分享自己正在做类似项目的,也有针对项目中的技术问题提供建议的,总体氛围积极向上,大家都对项目表现出兴趣或给予支持。

主要观点

  1. 👍 询问项目是否发布模型权重或数据集
    • 支持理由:对项目感兴趣,想深入了解项目资源相关情况。
    • 反对声音:无。
  2. 👍 有C++入门经验,想为项目做贡献并学习安卓开发知识
    • 正方观点:对项目感兴趣,想参与项目并从中学习。
    • 反方观点:无。
  3. 🔥 整合Llama3与自定义语音识别的项目很厉害,可通过提示工程或分类器解决聊天和命令模式切换问题
    • 正方观点:项目整合方式独特,所提建议是可行的技术手段。
    • 反方观点:无。
  4. 💡 记忆个人信息可利用汇总系统压缩数据并采用人为识别辅助
    • 解释:为解决项目中的用户画像问题提供一种可能的技术思路。
  5. 🤔 正在构建类似项目,在系统摄取其他信息来源等方面存在困难
    • 解释:反映出此类项目开发过程中会面临的一些挑战。

金句与有趣评论

  1. “😂 bburtenshaw: Are you releasing any model weights or datasets?”
    • 亮点:直接提出关于项目的关键问题,开启项目资源方面的讨论。
  2. “🤔 我有C++入门级别的经验,并且想要为你的项目做贡献。”
    • 亮点:表达了参与项目的意愿,对项目是一种积极的反馈。
  3. “👀 MrPick3ls:Impressive project! Your approach to integrating Llama3 with custom voice recognition is intriguing.”
    • 亮点:对项目整合方式给予肯定和赞赏。
  4. “💡 我利用一种汇总系统,该系统在加载“资料”时为低语境长度压缩数据。”
    • 亮点:提供了关于记忆用户个人信息的具体技术思路。
  5. “🤨 这和我一直在尝试构建的非常相似。”
    • 亮点:体现出此类项目的普遍性和大家对相似项目的关注度。

情感分析

总体情感倾向是积极的。主要分歧点较少,大家基本都对项目持肯定、支持或积极参与的态度。可能的原因是项目本身具有创新性和吸引力,且开发语音助手是一个热门话题,大家都愿意鼓励和支持开发者,或者从项目中获取经验和灵感。

趋势与预测

  • 新兴话题:可能会有更多关于项目技术实现细节的讨论,如如何更好地进行命令识别集成、用户画像构建等。
  • 潜在影响:如果项目成功,可能会激励更多人投入到语音助手项目的开发中,推动语音助手技术在智能家庭等领域的发展。

详细内容:

标题:开发者打造融合 Llama3 的语音助手 V.I.S.O.R.,引发 Reddit 热议

在 Reddit 上,一位开发者分享了其正在进行的语音助手项目 V.I.S.O.R.,该项目整合了 Llama3,引起了众多用户的关注。此帖获得了较高的热度,评论数众多。

这个项目的关键特点包括:适用于 Android(4.1+)、Linux 和 Windows(Win7+)系统;并非简单的助手,功能会愈发复杂;Android 应用自 2020 年开始开发,全语音控制但 UI 仍需完善;支持简单模块创建;具备聊天功能,能从 WolframAlpha 或 Wikipedia 获取并总结信息。

开发者目前面临的挑战是如何在聊天和命令响应模式之间切换,以及如何实现像 ChatGPT 那样记住用户个人细节而无需每次通过系统提示输入。有人提出可以探索提示工程技术或使用分类器来确定意图,比如用户 MrPick3ls 建议,对于用户个人细节的记录,可考虑维护一个持久的 JSON 文件,在每次交互后更新。还有人分享了相关的训练内容和工具链接。

有用户表示愿意为项目贡献力量,如 vic8760 拥有 C++的入门经验,想从桌面/服务器端入手参与。也有用户认为这个项目很有趣,如 BraceletGrolf 表示自己在做类似但闭源的项目,这个分享激励了自己。

有人针对开发者的问题给出了详细建议。例如 Alienanthony 提到利用总结系统压缩数据以减少加载“配置文件”时的上下文长度,并使用随机化内存识别来确保新鲜和有时具有话题性的对话能继续。但开发者对此也提出了一些疑问。

对于这个充满挑战和创新的项目,未来的发展令人期待。究竟开发者能否成功解决当前面临的问题,让 V.I.S.O.R. 成为更强大的语音助手呢?让我们拭目以待。