原贴链接

我正在开发一个定制的数据管理软件，并且一直致力于研究将现有的本地对话式AI集成和修改到该软件中的可能性（或者至少为将来实现这一目标打下基础）。我遇到的首要问题是相关信息有些难以获取——搜索常常让我回到r/LocalLLaMA/和r/MachineLearning中一年前的帖子。有没有人在关注哪些工具值得关注？我在这里发帖，希望能找到一些信息，同时也分享我所知道的，供任何觉得有用或感兴趣的人参考。

我注意到大多数开源项目都是基于Open AI的Whisper及其重实现版本，例如：

Coqui AI的 TTS和STT模型已经获得了一些关注，但他们在网站上声明他们将关闭。

Tortoise TTS及其重实现版本，如：

Tortoise-TTS-fast及其稍快一点的分支。

StyleTTS2及其微调版本：

StyleTTS2FineTune

阿里巴巴集团的Tongyi SpeechTeam的SenseVoice（STT）和CosyVoice（TTS）。

大家有没有使用过这些工具的经验？有没有什么我应该关注或添加到这个列表中的？

（编辑1：添加了Distil-Whisper，因为“insanely fast whisper”不是一个模型，但它们是一起发布的）

讨论总结

本次讨论聚焦于本地开源的文本转语音（TTS）和语音转文本（STT）技术，参与者分享了各自的使用经验和技术列表。主要话题包括Coqui AI的XTTS2、Piper、alltalktts等项目的使用情况，以及在Mac上的应用限制。此外，讨论还涉及了硬件优化的TTS系统如PiperTTS和Paroli，以及新兴技术如零样本语音编辑。总体上，讨论呈现出对开源技术的积极探索和对多语言支持的期待。

主要观点

👍 Coqui AI的XTTS2是支持德语的最佳选择
- 支持理由：XTTS2在输出质量和训练简易性方面表现优异。
- 反对声音：Coqui AI的关闭是一个遗憾，因为它支持多语言。
🔥 分享了多种文本转语音解决方案的列表
- 正方观点：提到了一些基于特定硬件优化的TTS系统，如PiperTTS和Paroli。
- 反方观点：列表中的一些项目可能存在局限性。
💡 ParlerTTS模型表现良好，有自己的库支持流式传输令牌
- 解释：博客链接提供了详细的部署指南，回复者对ParlerTTS模型与XTTSv2的比较感兴趣。

金句与有趣评论

“😂 Environmental-Metal9：I’ve been using alltalktts (https://github.com/erew123/alltalk_tts) which is based off of coqui and supports XTTS2, piper and some others.”
- 亮点：分享了实际使用经验，提供了具体项目链接。
“🤔 jpummill2：I’ve been trying to keep a list of TTS solutions. Here you go:”
- 亮点：提供了详细的TTS解决方案列表，对寻找相关技术有帮助。
“👀 Blizado：Well, I’m very limited because I want a German capable one for TTS and with that only XTTSV2 (Coqui) was the choose for me.”
- 亮点：强调了多语言支持的重要性，分享了个人选择。

情感分析

讨论的总体情感倾向积极，主要分歧点在于不同技术的优劣和适用性。一些用户对Coqui AI的关闭表示遗憾，同时对新兴技术如零样本语音编辑持开放态度。

趋势与预测

新兴话题：零样本语音编辑和硬件优化的TTS系统可能会引发后续讨论。
潜在影响：这些技术的进步可能会推动更多本地化应用的开发，特别是在多语言支持方面。

详细内容：

标题：探寻最佳本地开源的文本转语音和语音转文本技术

在 Reddit 上，有一个关于“Best local open source Text-To-Speech and Speech-To-Text?”的热门讨论帖引起了大家的关注。该帖获得了众多的浏览量和大量的评论。原帖作者正在开发自定义数据管理软件，致力于整合和修改现有的本地对话式 AI ，但在寻找相关信息时遇到了困难，希望能从讨论中获取有用的信息并分享自己所了解的内容。

帖子中提到了众多的开源项目，如基于 Open AI’s Whisper 及其重新实现的版本，还有 Coqui AI 的 TTS 和 STT 模型、Tortoise TTS 及其相关版本、StyleTTS 及其新版本，以及 Alibaba Group 的 Tongyi SpeechTeam 的 SenseVoice 和 CosyVoice 等。

讨论焦点主要集中在不同模型的使用体验和优缺点上。有人分享说一直在使用基于 Coqui 的 alltalktts，在 Mac 上使用效果不错。还有人列举了一系列的 TTS 解决方案，包括 11labs 、xtts 、xtts2 等。有人认为 Alibaba 的 CosyVoice 从演示来看相当出色。也有人提到自己使用 XTTSv2 ，认为其输出质量好且容易训练。但也有人指出 Coqui-STT 的准确性较差。

在这些讨论中，我们可以看到不同用户对于各种模型的看法和评价存在较大差异。比如，对于 XTTSv2 ，有人觉得它非常出色，而有人则认为它存在一些不足。这也反映出在选择适合自己需求的技术时，需要综合考虑多个因素，包括使用场景、硬件条件、个人技术水平等。究竟哪一款模型能够真正满足用户的需求，还需要根据具体情况进行深入的探索和实践。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#