原贴链接

我正在开发一个定制的数据管理软件,并且一直致力于研究将现有的本地对话式AI集成和修改到该软件中的可能性(或者至少为将来实现这一目标打下基础)。我遇到的首要问题是相关信息有些难以获取——搜索常常让我回到r/LocalLLaMA/和r/MachineLearning中一年前的帖子。有没有人在关注哪些工具值得关注?我在这里发帖,希望能找到一些信息,同时也分享我所知道的,供任何觉得有用或感兴趣的人参考。

我注意到大多数开源项目都是基于Open AI的Whisper及其重实现版本,例如:

Coqui AI的 TTS和STT模型已经获得了一些关注,但他们在网站上声明他们将关闭。

Tortoise TTS及其重实现版本,如:

StyleTTS2及其微调版本:

阿里巴巴集团的Tongyi SpeechTeamSenseVoice(STT)和CosyVoice(TTS)。

大家有没有使用过这些工具的经验?有没有什么我应该关注或添加到这个列表中的?

(编辑1:添加了Distil-Whisper,因为“insanely fast whisper”不是一个模型,但它们是一起发布的)

讨论总结

本次讨论聚焦于本地开源的文本转语音(TTS)和语音转文本(STT)技术,参与者分享了各自的使用经验和技术列表。主要话题包括Coqui AI的XTTS2、Piper、alltalktts等项目的使用情况,以及在Mac上的应用限制。此外,讨论还涉及了硬件优化的TTS系统如PiperTTS和Paroli,以及新兴技术如零样本语音编辑。总体上,讨论呈现出对开源技术的积极探索和对多语言支持的期待。

主要观点

  1. 👍 Coqui AI的XTTS2是支持德语的最佳选择
    • 支持理由:XTTS2在输出质量和训练简易性方面表现优异。
    • 反对声音:Coqui AI的关闭是一个遗憾,因为它支持多语言。
  2. 🔥 分享了多种文本转语音解决方案的列表
    • 正方观点:提到了一些基于特定硬件优化的TTS系统,如PiperTTS和Paroli。
    • 反方观点:列表中的一些项目可能存在局限性。
  3. 💡 ParlerTTS模型表现良好,有自己的库支持流式传输令牌
    • 解释:博客链接提供了详细的部署指南,回复者对ParlerTTS模型与XTTSv2的比较感兴趣。

金句与有趣评论

  1. “😂 Environmental-Metal9:I’ve been using alltalktts (https://github.com/erew123/alltalk_tts) which is based off of coqui and supports XTTS2, piper and some others.”
    • 亮点:分享了实际使用经验,提供了具体项目链接。
  2. “🤔 jpummill2:I’ve been trying to keep a list of TTS solutions. Here you go:”
    • 亮点:提供了详细的TTS解决方案列表,对寻找相关技术有帮助。
  3. “👀 Blizado:Well, I’m very limited because I want a German capable one for TTS and with that only XTTSV2 (Coqui) was the choose for me.”
    • 亮点:强调了多语言支持的重要性,分享了个人选择。

情感分析

讨论的总体情感倾向积极,主要分歧点在于不同技术的优劣和适用性。一些用户对Coqui AI的关闭表示遗憾,同时对新兴技术如零样本语音编辑持开放态度。

趋势与预测

  • 新兴话题:零样本语音编辑和硬件优化的TTS系统可能会引发后续讨论。
  • 潜在影响:这些技术的进步可能会推动更多本地化应用的开发,特别是在多语言支持方面。

详细内容:

标题:探寻最佳本地开源的文本转语音和语音转文本技术

在 Reddit 上,有一个关于“Best local open source Text-To-Speech and Speech-To-Text?”的热门讨论帖引起了大家的关注。该帖获得了众多的浏览量和大量的评论。原帖作者正在开发自定义数据管理软件,致力于整合和修改现有的本地对话式 AI ,但在寻找相关信息时遇到了困难,希望能从讨论中获取有用的信息并分享自己所了解的内容。

帖子中提到了众多的开源项目,如基于 Open AI’s Whisper 及其重新实现的版本,还有 Coqui AI 的 TTS 和 STT 模型、Tortoise TTS 及其相关版本、StyleTTS 及其新版本,以及 Alibaba Group 的 Tongyi SpeechTeam 的 SenseVoice 和 CosyVoice 等。

讨论焦点主要集中在不同模型的使用体验和优缺点上。有人分享说一直在使用基于 Coqui 的 alltalktts,在 Mac 上使用效果不错。还有人列举了一系列的 TTS 解决方案,包括 11labs 、xtts 、xtts2 等。有人认为 Alibaba 的 CosyVoice 从演示来看相当出色。也有人提到自己使用 XTTSv2 ,认为其输出质量好且容易训练。但也有人指出 Coqui-STT 的准确性较差。

在这些讨论中,我们可以看到不同用户对于各种模型的看法和评价存在较大差异。比如,对于 XTTSv2 ,有人觉得它非常出色,而有人则认为它存在一些不足。这也反映出在选择适合自己需求的技术时,需要综合考虑多个因素,包括使用场景、硬件条件、个人技术水平等。究竟哪一款模型能够真正满足用户的需求,还需要根据具体情况进行深入的探索和实践。