原贴链接

既然Character.AI和一堆糟糕的Character AI山寨移动应用已经证明了语音到语音聊天机器人作为应用是可行的,我一直在寻找一个本地解决方案。我希望能够使用我自己训练的.pth语音模型,这个模型听起来不那么糟糕,以及我自己的.guff LLM模型,这个模型没有内容过滤器。

Applio让我可以轻松地训练和使用我自己的.pth语音模型,LM Studio让我可以快速轻松地使用我自己的.guff模型,比如Meta Llama或Fimbulvetr,但试图找到一个同时支持两者的github项目却很麻烦。不是因为缺乏尝试的项目,而是因为我技术不够娴熟,无法让其中任何一个运行起来。我完全意识到问题出在我自己。

有没有什么项目提供简单的.exe/.msi/setup.py/run.bat,可以无痛安装/运行?如果我再输入一次pip install,我就要疯了,而且git clone命令不知为何根本不起作用。快来帮忙。

讨论总结

讨论主要围绕用户在寻找一个本地化的语音到语音聊天机器人解决方案时遇到的困难。用户已经尝试了多种工具,如Applio和LM Studio,但仍然难以找到一个能够无缝集成其自定义语音模型和语言模型的项目。用户表达了对简单安装和运行方式的强烈需求,希望能找到一个不需要复杂技术操作的解决方案。讨论中涉及的主要话题包括技术设置困难、语音到语音解决方案、本地模型、易于使用的工具和技术不熟悉。此外,用户还讨论了在线选项和低延迟解决方案的可能性,但这些选项大多不是本地的。

主要观点

  1. 👍 寻找本地化的语音到语音聊天机器人解决方案
    • 支持理由:用户已经尝试了Applio和LM Studio,但未能找到满意的解决方案。
    • 反对声音:现有的解决方案大多需要复杂的技术操作。
  2. 🔥 对简单安装和运行方式的需求
    • 正方观点:用户希望能找到一个包含简单安装文件(如.exe/.msi/setup.py/run.bat)的项目。
    • 反方观点:现有的项目大多需要用户自行设置和运行。
  3. 💡 技术支持的重要性
    • 解释:用户对技术支持有强烈需求,希望能得到帮助。
  4. 💡 在线选项和低延迟解决方案
    • 解释:用户讨论了在线选项如Groq和NovelAI,以及低延迟解决方案如Deepgram。
  5. 💡 错误纠正和信息更新
    • 解释:讨论中涉及了错误纠正和信息更新的重要性。

金句与有趣评论

  1. “😂 Try this one, easy to use and it’s working.”
    • 亮点:评论者推荐了一个易于使用的解决方案,适合技术不熟练的用户。
  2. “🤔 Deepgram is a cool low latency TTS provider with a ton of free credit.”
    • 亮点:评论者推荐了一个低延迟的TTS提供商,提供大量免费信用。
  3. “👀 Yeah none of it lmao. Sorry missed that.”
    • 亮点:评论者承认自己之前的信息有误,展示了错误纠正的重要性。

情感分析

讨论的总体情感倾向是寻求帮助和解决方案的积极态度,但也有对技术困难的沮丧和不满。主要分歧点在于本地解决方案和在线选项的选择,以及对简单安装和运行方式的需求。可能的原因包括用户对技术操作的不熟悉和对现有解决方案的不满。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括更多易于使用的本地解决方案和低延迟的在线选项。
  • 潜在影响:对相关领域或社会的潜在影响包括推动语音到语音聊天机器人技术的普及和简化,以及提高用户对技术支持的需求。

详细内容:

标题:寻找最便捷的 LLM 语音对话解决方案

在 Reddit 上,一则题为“What’s the easiest LLM speech-to-speech solution you’ve found?”的帖子引发了广泛关注。该帖主表示,在[Character.AI]等应用证明语音到语音的聊天机器人可行后,一直在寻找本地解决方案,希望能使用自己训练的优质语音模型和不受内容过滤限制的 LLM 模型,但在寻找能同时满足这两个需求的 GitHub 项目时遇到了困难。此帖获得了众多回应,评论数众多。

讨论焦点主要集中在各种可行的解决方案及它们的优缺点。有人提到,付费方案 Voxta 能将语音转文字、LLM 和语音合成集于一体,无论是本地使用还是通过 API 均可,包括 ooba/kobold 等。还有人指出,SillyTavern 也具备语音转文字和语音合成功能,支持多种技术。

有用户分享道:“我的自定义应用实现这一功能时使用了 alltalk tts:[https://github.com/erew123/alltalk_tts]。可以设置是否开启 RVC(开启会增加一点响应延迟)。能编辑声音、添加多个角色的声音,几乎实时生成语音内容(在我的 4090 上,不开启 RVC 时延迟小于 1 秒,开启则稍长)。添加蒸馏后的 whisper 仓库,在 24GB VRAM 中就能运行整个系统。语音转文字几乎瞬间完成,响应快速且自然。虽不如尚未完全发布的 OpenAI 语音系统,但已足够出色。”

也有用户认为,如果追求简单且能接受稍慢速度,koboldcpp 是个不错的选择,它部分集成了相关功能,还能作为 Sillytavern 的后端,提供类似 CharacterAI 的体验。或者选择在线的 LLM 选项,比如 Groq 有慷慨的免费 API 层级和适用的模型。

不过,也有人提出质疑,比如有用户说:“我约 99%确定你提到的都不是本地的。”

总之,目前对于最便捷的 LLM 语音对话解决方案,大家各抒己见,但仍未达成完全一致。到底哪种方案才是真正便捷又实用的,还需进一步探索和实践。