原贴链接

我是科幻小说和有声读物的超级粉丝,不幸的是,很多书没有我的母语(德语)版本的有声读物。如今本地能做到的技术水平是否足以让我自己创建这些有声读物呢?已经有人做过类似的事情吗?你能给我指出一些资源吗?

讨论总结

此讨论围绕本地语音模型是否足以制作有声读物展开。原帖作者因很多德语科幻书籍无有声版,想了解本地技术能否自制。评论者们从不同角度阐述观点,包括语音模型的可行性、优缺点、商业限制以及一些技术建议等,整体氛围是在理性地探讨这个话题。

主要观点

  1. 👍 本地语音模型制作有声读物具有可行性
    • 支持理由:如有人做过相关个人项目,15年前就有简单文字转语音技术用于制作
    • 反对声音:无
  2. 🔥 Audible不允许商业使用限制了相关发展
    • 正方观点:导致音频工作者不认真对待
    • 反方观点:无
  3. 💡 本地技术无法很好地理解上下文制作有声书
    • 解释:这也是人类短期内仍承担有声书制作的原因
  4. 💡 TTS模型在英语方面通常表现良好,但对其他语言质量会下降
    • 解释:很多以英语为基础模型训练,其他语言会有口音或机械生硬
  5. 💡 当地语音模型存在如机械、缺乏语调与理解能力等不足(至少在英语中)
    • 解释:评论者根据自己使用体验得出

金句与有趣评论

  1. “😂 It can be done, but right now audible doesn’t allow it commercially so few audio guys are working on it seriously (can’t sell the resulting product even if it’s flawless - they don’t want AI voices).”
    • 亮点:指出商业限制对本地语音模型制作有声读物发展的阻碍
  2. “🤔 The total stack doesn’t really exist in one big product, but it can be built and I’ve tried it out a few ways.”
    • 亮点:表明虽没有现成的一体化产品,但可自行构建
  3. “👀 You can, for you sure, but there’s nothing that can actually ‘understand’ the context of the writing and articulate correctly to infer the scene.”
    • 亮点:强调本地技术在理解写作上下文制作有声书方面的不足

情感分析

总体情感倾向较为中性,主要分歧点在于本地语音模型是否足以制作有声读物。支持方认为具有可行性,可通过一些改进措施来制作;反对方则指出本地技术存在如无法理解上下文等问题。可能的原因是评论者们从不同的使用体验、技术角度出发看待这个问题。

趋势与预测

  • 新兴话题:探索付费提供商来解决本地生成耗时等问题。
  • 潜在影响:若本地语音模型能较好用于制作有声读物,可能会使更多小众语言或无有声版本的书籍有有声版,也可能影响有声读物制作的商业格局。

详细内容:

《关于本地语音模型能否制作优质有声书的热门讨论》

在 Reddit 上,一篇题为“are local voice models good enough to make audiobooks?”的帖子引起了广泛关注,获得了众多点赞和大量评论。原帖作者是一位科幻和有声书的狂热粉丝,但很多书籍没有德语版有声书,于是询问如今本地技术能否自行制作。

这场讨论的焦点主要集中在本地语音模型制作有声书的可行性、质量以及相关工具的优劣。有人表示,虽然可以做到,但目前 Audible 不允许商业使用,所以相关音频工作者投入精力有限。Elevenlabs 的语音虽不错但成本高昂。Alltalk TTS 能实现多人分角色朗读,不过音频可能存在问题,结合 RVC 能有所改善,但仍不如 Elevenlabs。Edge-TTS 免费且无需本地运行,但效果不如前两者。还有人认为目前没有完美又快速的文本转语音模型。

有人分享说,音频生成实际上比实时收听要快,若只需要一个朗读者,操作简单,若要全角色体验则需更多工作。也有人提到,TTS 模型在英语方面通常较好,其他语言质量有所下降。

有用户吐槽说:“Audible 干脆倒闭算了。这就是我发起这个话题的全部原因。我理解很多有声书用德语制作对有限的受众来说没有商业意义,但无视这项技术让我非常讨厌 Audible。”

有人认为有声书还是人类朗读更好,因为目前模型无法理解写作的语境并正确表达以推断场景,听起来会很平淡。但也有人反驳说,德国最大的科幻配音演员工作也很糟糕,AI 未必更差。

总之,对于本地语音模型制作有声书,大家看法不一,但都在积极探讨和分享经验。核心问题在于如何在成本、效果和便捷性之间找到平衡,以满足用户对优质有声书的需求。