我之前用过OpenAI的Whisper，但我的项目要求所有内容都必须本地运行，包括语音转文本。是否有词错误率低于20%的可本地安装的解决方案？它们有哪些计算要求？谢谢。

讨论总结

原帖寻求本地语音转文本（STT）且词错误率低于20%的解决方案及相关计算要求。评论者们积极回应，提供了多种方案，包括Whisper的不同版本（如Whisper Turbo、WhisperX等）、在本地运行Whisper的方法、新开源的rev.com的模型，还有人分享了从Whisper API迁移到Whisper.cpp的经历。整体氛围是积极的，大家都在努力为原帖作者提供有用的信息。

主要观点

👍 可以在本地运行Whisper并存在改进版本
- 支持理由：有评论者推荐了在本地运行Whisper的方法，并指出有很多改进版本能提高速度，如“whisper.cpp”，还给出了Github项目链接。
- 反对声音：无
🔥 Whisper Turbo精度高且对硬件要求不高
- 正方观点：评论者指出Whisper Turbo精度几乎和Whisper Large相同，不需要强大电脑就能运行。
- 反方观点：无
💡 rev.com开源了语音转文本模型且性能较好
- 解释：该模型可免费用于非商业用途，在处理长格式英语音频时比Whisper变体性能更好，还提供了可自托管的生产就绪解决方案。
💡 WhisperX性能高且有额外功能
- 解释：被推荐为本地语音转文本的解决方案，性能极高并且有额外功能，使用whisper - large - v2可避免幻觉。
💡 明确处理方式和硬件限制有助于确定解决方案
- 解释：询问原帖是流式处理还是非流式处理以及硬件限制条件，有助于更精准地提供符合需求的本地语音转文本解决方案。

金句与有趣评论

“😂 你可以运行whisper本地。”
- 亮点：简洁明了地给出了原帖作者可能需要的关键信息，即Whisper可在本地运行。
“🤔 Well whisper turbo does exist now and it’s almost as precise as as whisper large, and you don’t even need a powerful pc”
- 亮点：介绍了Whisper Turbo这个方案的优势，包括精度和对硬件的要求不高。
“👀 我的公司（rev.com）最近开源了我们的语音到文本（和分轨）模型（非商业使用免费）。”
- 亮点：分享了新的开源资源，为原帖作者提供了新的选择。
“💡 Whisper with the best fork being WhisperX, it’s extremely performant and has extra features.”
- 亮点：推荐了性能高且有额外功能的WhisperX作为解决方案。
“👍 我从OpenAI的whisper API迁移到Whisper.cpp。”
- 亮点：分享了从一种语音转文本方式到另一种方式的迁移经历，为他人提供参考。

情感分析

总体情感倾向是积极的。大家都在积极为原帖作者提供满足需求的本地语音转文本解决方案，没有明显的分歧点。可能的原因是这个话题比较专业性，大家都专注于分享有用的信息。

趋势与预测

新兴话题：随着各种新的语音转文本方案的提及，不同方案在特定需求（如处理长格式英语音频、避免幻觉等）下的比较可能会引发后续讨论。
潜在影响：如果更多人关注和采用这些本地语音转文本方案，可能会对语音识别相关领域产生推动作用，提高本地语音识别的准确性和效率，也可能影响到相关商业产品的市场份额。

详细内容：

标题：探索本地语音转文本（STT）解决方案

在 Reddit 上，一则关于本地语音转文本（STT）的讨论引发了众多关注。该帖子询问是否存在本地可安装、单词错误率低于 20%的解决方案，以及它们所需的计算要求。此帖获得了大量的互动，点赞数众多，评论也十分热烈。

讨论焦点主要集中在各种可行的本地 STT 方案。有人指出可以在本地运行 Whisper，并且在 GitHub 上有很多关于 Whisper 的改进分支，比如“whisper.cpp”，链接为：https://github.com/Vaibhavs10/insanely - fast - whisper 。有人称本地的 Whisper 相当不错，比如“Chongo4684”表示“Whisper Turbo 现在已经存在，其精度几乎和 Whisper Large 一样，甚至不需要强大的电脑”。还有人提到从 OpenAI 的 Whisper API 迁移到 Whisper.cpp，在其 5 年旧的笔记本电脑上运行良好。

“jprobichaud”分享其公司（rev.com）最近开源了语音转文本（和语音分割）模型，可在 https://github.com/revdotcom/reverb 尝试。并表示如果需求是快速、准确、长形式的英语音频，会比任何 Whisper 变体都要好。同时还有更完整的生产就绪的自托管解决方案，链接为：https://github.com/revdotcom/reverb - self - hosted ，详细内容在论文 https://arxiv.org/abs/2410.03930 中。

有人推荐 Whisper 本身，也有人提到英伟达有更高效的模型但运行较复杂。还有人建议使用 WhisperX，称其性能极好且有额外功能，并提醒一定要使用 Whisper - large - v2，因为 v3 有很多漏洞。

讨论中的共识是本地可安装的 STT 方案是可行的，且有多种选择。特别有见地的观点如“jprobichaud”分享的公司开源模型及相关资源，为讨论增添了更多价值。

然而，对于不同方案的适用场景和硬件要求仍存在一定的争议。比如“nmfisher”询问是流媒体还是非流媒体，以及硬件约束条件。“olddoglearnsnewtrick”则分享其个人经历，表示梦想开发一个网络应用，为盲人在博物馆中提供多语言描述艺术品的服务，目前没有 GPU 机器，但如果项目成功，配备有 GPU 的强大服务器是可行的。

总之，这次关于本地 STT 的讨论为寻求相关解决方案的人们提供了丰富的信息和多样的思路。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#