原贴链接

我是科幻小说和有声读物的超级粉丝，不幸的是，很多书没有我的母语（德语）版本的有声读物。如今本地能做到的技术水平是否足以让我自己创建这些有声读物呢？已经有人做过类似的事情吗？你能给我指出一些资源吗？

讨论总结

此讨论围绕本地语音模型是否足以制作有声读物展开。原帖作者因很多德语科幻书籍无有声版，想了解本地技术能否自制。评论者们从不同角度阐述观点，包括语音模型的可行性、优缺点、商业限制以及一些技术建议等，整体氛围是在理性地探讨这个话题。

主要观点

👍 本地语音模型制作有声读物具有可行性
- 支持理由：如有人做过相关个人项目，15年前就有简单文字转语音技术用于制作
- 反对声音：无
🔥 Audible不允许商业使用限制了相关发展
- 正方观点：导致音频工作者不认真对待
- 反方观点：无
💡 本地技术无法很好地理解上下文制作有声书
- 解释：这也是人类短期内仍承担有声书制作的原因
💡 TTS模型在英语方面通常表现良好，但对其他语言质量会下降
- 解释：很多以英语为基础模型训练，其他语言会有口音或机械生硬
💡 当地语音模型存在如机械、缺乏语调与理解能力等不足（至少在英语中）
- 解释：评论者根据自己使用体验得出

金句与有趣评论

“😂 It can be done, but right now audible doesn’t allow it commercially so few audio guys are working on it seriously (can’t sell the resulting product even if it’s flawless - they don’t want AI voices).”
- 亮点：指出商业限制对本地语音模型制作有声读物发展的阻碍
“🤔 The total stack doesn’t really exist in one big product, but it can be built and I’ve tried it out a few ways.”
- 亮点：表明虽没有现成的一体化产品，但可自行构建
“👀 You can, for you sure, but there’s nothing that can actually ‘understand’ the context of the writing and articulate correctly to infer the scene.”
- 亮点：强调本地技术在理解写作上下文制作有声书方面的不足

情感分析

总体情感倾向较为中性，主要分歧点在于本地语音模型是否足以制作有声读物。支持方认为具有可行性，可通过一些改进措施来制作；反对方则指出本地技术存在如无法理解上下文等问题。可能的原因是评论者们从不同的使用体验、技术角度出发看待这个问题。

趋势与预测

新兴话题：探索付费提供商来解决本地生成耗时等问题。
潜在影响：若本地语音模型能较好用于制作有声读物，可能会使更多小众语言或无有声版本的书籍有有声版，也可能影响有声读物制作的商业格局。

详细内容：

《关于本地语音模型能否制作优质有声书的热门讨论》

在 Reddit 上，一篇题为“are local voice models good enough to make audiobooks?”的帖子引起了广泛关注，获得了众多点赞和大量评论。原帖作者是一位科幻和有声书的狂热粉丝，但很多书籍没有德语版有声书，于是询问如今本地技术能否自行制作。

这场讨论的焦点主要集中在本地语音模型制作有声书的可行性、质量以及相关工具的优劣。有人表示，虽然可以做到，但目前 Audible 不允许商业使用，所以相关音频工作者投入精力有限。Elevenlabs 的语音虽不错但成本高昂。Alltalk TTS 能实现多人分角色朗读，不过音频可能存在问题，结合 RVC 能有所改善，但仍不如 Elevenlabs。Edge-TTS 免费且无需本地运行，但效果不如前两者。还有人认为目前没有完美又快速的文本转语音模型。

有人分享说，音频生成实际上比实时收听要快，若只需要一个朗读者，操作简单，若要全角色体验则需更多工作。也有人提到，TTS 模型在英语方面通常较好，其他语言质量有所下降。

有用户吐槽说：“Audible 干脆倒闭算了。这就是我发起这个话题的全部原因。我理解很多有声书用德语制作对有限的受众来说没有商业意义，但无视这项技术让我非常讨厌 Audible。”

有人认为有声书还是人类朗读更好，因为目前模型无法理解写作的语境并正确表达以推断场景，听起来会很平淡。但也有人反驳说，德国最大的科幻配音演员工作也很糟糕，AI 未必更差。

总之，对于本地语音模型制作有声书，大家看法不一，但都在积极探讨和分享经验。核心问题在于如何在成本、效果和便捷性之间找到平衡，以满足用户对优质有声书的需求。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#