原贴链接

我之前用过OpenAI的Whisper,但我的项目要求所有内容都必须本地运行,包括语音转文本。是否有词错误率低于20%的可本地安装的解决方案?它们有哪些计算要求?谢谢。

讨论总结

原帖寻求本地语音转文本(STT)且词错误率低于20%的解决方案及相关计算要求。评论者们积极回应,提供了多种方案,包括Whisper的不同版本(如Whisper Turbo、WhisperX等)、在本地运行Whisper的方法、新开源的rev.com的模型,还有人分享了从Whisper API迁移到Whisper.cpp的经历。整体氛围是积极的,大家都在努力为原帖作者提供有用的信息。

主要观点

  1. 👍 可以在本地运行Whisper并存在改进版本
    • 支持理由:有评论者推荐了在本地运行Whisper的方法,并指出有很多改进版本能提高速度,如“whisper.cpp”,还给出了Github项目链接。
    • 反对声音:无
  2. 🔥 Whisper Turbo精度高且对硬件要求不高
    • 正方观点:评论者指出Whisper Turbo精度几乎和Whisper Large相同,不需要强大电脑就能运行。
    • 反方观点:无
  3. 💡 rev.com开源了语音转文本模型且性能较好
    • 解释:该模型可免费用于非商业用途,在处理长格式英语音频时比Whisper变体性能更好,还提供了可自托管的生产就绪解决方案。
  4. 💡 WhisperX性能高且有额外功能
    • 解释:被推荐为本地语音转文本的解决方案,性能极高并且有额外功能,使用whisper - large - v2可避免幻觉。
  5. 💡 明确处理方式和硬件限制有助于确定解决方案
    • 解释:询问原帖是流式处理还是非流式处理以及硬件限制条件,有助于更精准地提供符合需求的本地语音转文本解决方案。

金句与有趣评论

  1. “😂 你可以运行whisper本地。”
    • 亮点:简洁明了地给出了原帖作者可能需要的关键信息,即Whisper可在本地运行。
  2. “🤔 Well whisper turbo does exist now and it’s almost as precise as as whisper large, and you don’t even need a powerful pc”
    • 亮点:介绍了Whisper Turbo这个方案的优势,包括精度和对硬件的要求不高。
  3. “👀 我的公司(rev.com)最近开源了我们的语音到文本(和分轨)模型(非商业使用免费)。”
    • 亮点:分享了新的开源资源,为原帖作者提供了新的选择。
  4. “💡 Whisper with the best fork being WhisperX, it’s extremely performant and has extra features.”
    • 亮点:推荐了性能高且有额外功能的WhisperX作为解决方案。
  5. “👍 我从OpenAI的whisper API迁移到Whisper.cpp。”
    • 亮点:分享了从一种语音转文本方式到另一种方式的迁移经历,为他人提供参考。

情感分析

总体情感倾向是积极的。大家都在积极为原帖作者提供满足需求的本地语音转文本解决方案,没有明显的分歧点。可能的原因是这个话题比较专业性,大家都专注于分享有用的信息。

趋势与预测

  • 新兴话题:随着各种新的语音转文本方案的提及,不同方案在特定需求(如处理长格式英语音频、避免幻觉等)下的比较可能会引发后续讨论。
  • 潜在影响:如果更多人关注和采用这些本地语音转文本方案,可能会对语音识别相关领域产生推动作用,提高本地语音识别的准确性和效率,也可能影响到相关商业产品的市场份额。

详细内容:

标题:探索本地语音转文本(STT)解决方案

在 Reddit 上,一则关于本地语音转文本(STT)的讨论引发了众多关注。该帖子询问是否存在本地可安装、单词错误率低于 20%的解决方案,以及它们所需的计算要求。此帖获得了大量的互动,点赞数众多,评论也十分热烈。

讨论焦点主要集中在各种可行的本地 STT 方案。有人指出可以在本地运行 Whisper,并且在 GitHub 上有很多关于 Whisper 的改进分支,比如“whisper.cpp”,链接为:https://github.com/Vaibhavs10/insanely - fast - whisper 。有人称本地的 Whisper 相当不错,比如“Chongo4684”表示“Whisper Turbo 现在已经存在,其精度几乎和 Whisper Large 一样,甚至不需要强大的电脑”。还有人提到从 OpenAI 的 Whisper API 迁移到 Whisper.cpp,在其 5 年旧的笔记本电脑上运行良好。

“jprobichaud”分享其公司(rev.com)最近开源了语音转文本(和语音分割)模型,可在 https://github.com/revdotcom/reverb 尝试。并表示如果需求是快速、准确、长形式的英语音频,会比任何 Whisper 变体都要好。同时还有更完整的生产就绪的自托管解决方案,链接为:https://github.com/revdotcom/reverb - self - hosted ,详细内容在论文 https://arxiv.org/abs/2410.03930 中。

有人推荐 Whisper 本身,也有人提到英伟达有更高效的模型但运行较复杂。还有人建议使用 WhisperX,称其性能极好且有额外功能,并提醒一定要使用 Whisper - large - v2,因为 v3 有很多漏洞。

讨论中的共识是本地可安装的 STT 方案是可行的,且有多种选择。特别有见地的观点如“jprobichaud”分享的公司开源模型及相关资源,为讨论增添了更多价值。

然而,对于不同方案的适用场景和硬件要求仍存在一定的争议。比如“nmfisher”询问是流媒体还是非流媒体,以及硬件约束条件。“olddoglearnsnewtrick”则分享其个人经历,表示梦想开发一个网络应用,为盲人在博物馆中提供多语言描述艺术品的服务,目前没有 GPU 机器,但如果项目成功,配备有 GPU 的强大服务器是可行的。

总之,这次关于本地 STT 的讨论为寻求相关解决方案的人们提供了丰富的信息和多样的思路。