标题基本说明了问题。自Whisper发布以来，还有其他非常好的语音转文本（STT）技术吗？

讨论总结

原帖询问Whisper.cpp在语音转文本（STT）领域是否仍是王者，并探寻自Whisper发布后是否有其他优秀的STT。评论中有人对比Whisper不同版本性能，如推荐“large - v3” turbo版本；有人认为STT基本已解决但也遭到很多反驳；有人根据HF排行榜称有比Whisper更好的模型并分享whisper.cpp使用体验；还有人推荐了VOSK、Gemeni等其他STT，也有对Whisper各版本的评价以及单独寻求获取时间戳方法的评论，整体讨论比较理性客观。

主要观点

👍 认为STT基本已解决
- 支持理由：可能未处理糟糕音频或口音情况所以觉得已解决。
- 反对声音：不同条件下词错误率高、部分语言错误率超40%、说话人分类困难、英语标点和句子拆分有问题等表明远未解决。
🔥 根据HF排行榜存在比Whisper更好的模型
- 正方观点：HF排行榜是依据，个人使用whisper.cpp存在问题，如在法语识别上效果不佳。
- 反方观点：无（未提及）
💡 Whisper base在英语方面表现优秀且速度快、显存占用小
- 解释：可以在英语上快速转换且对显存要求低。
💡 Whisperv3 - Turbo多语言准确性不如英语
- 解释：在多语言使用时准确性不如英语方面表现。
💡 Gemeni在转录方面表现优秀且价格常常低于Whisper
- 解释：在转录功能上表现佳并且价格有优势。

金句与有趣评论

“😂 davernow：Not sure about alternatives, but if you do use Whisper, "large - v3" turbo from October blows the old models away for performance/quality tradeoffs”
- 亮点：提供了Whisper不同版本间性能比较信息。
“🤔 meaty_ochre：Yes, IMO it’s basically a solved problem, but I may be biased from not having to deal with bad audio or accents.”
- 亮点：引出STT是否已解决的争议话题。
“👀 phhusson：在我的个人使用中，whisper.cpp的某些版本在法语（巴黎口音）识别上效果不佳。”
- 亮点：从个人使用角度给出whisper.cpp的问题。
“🤔 Just_Young7838：For like top - 10 world languages it looks mostly solved, but there are some flaws: - other languages still struggle badly with 40+% WER”
- 亮点：指出在部分语言中STT仍存在的问题。
“😎 Whisperv3 - Turbo is the GOAT, a lot smaller than large, only 6GB VRAM required but comparable to large in accuracy, its the second fastest whisper model.”
- 亮点：对Whisperv3 - Turbo模型的特性做出概括。

情感分析

总体情感倾向为中性，主要是在理性探讨STT相关问题。分歧点在于STT是否已解决以及Whisper是否仍是王者，可能的原因是不同人使用的场景、测试的语言、对模型要求不同等因素导致。

趋势与预测

新兴话题：其他如Gemeni等模型是否能替代Whisper成为新的王者。
潜在影响：如果有新的更好的STT模型，可能会影响语音转文本相关领域的市场格局和技术发展方向。

详细内容：

《关于 Whisper.cpp 在 STT 领域地位的热门讨论》

在 Reddit 上，有一篇题为“Is Whisper.cpp still the king of STT?”的帖子引发了热烈讨论。此帖获得了众多关注，评论数众多。帖子主要探讨了自 Whisper 发布以来，是否有其他优秀的语音转文本（STT）模型。

讨论焦点与观点分析：有人认为 Whisper 的“large-v3”turbo 自 10 月份以来在性能和质量权衡方面表现出色。但也有人指出，比如使用 Whisper large 时，无法准确识别停顿为逗号，也不能区分男女声音，就像有用户分享道：“我正在使用 whisper large ，它无法将停顿识别为逗号，并且在男女声音切换时，它只是继续将所有内容都记录下来，仿佛是一个独白。有什么建议吗？” 还有人提到 WhisperX 可以进行单词级别的角色分配，通过 Pyannote 和 Segmentation 实现，过去使用效果不错，并提供了相关链接：https://github.com/m - bain/whisperX?tab=readme - ov - file#speaker - diarization 。有人觉得 Whisper 对于世界排名前十的语言基本解决了问题，但对于其他语言仍存在较高的错误率，且说话者角色分配仍有困难。比如有人说：“对于像世界前 10 名的语言，它看起来大多已经解决了，但也有一些缺陷：其他语言仍然在 40%以上的词错误率上挣扎得很厉害；说话者角色分配仍然有点麻烦——像 Pyannote 和 NeMo 角色分配这样的现成解决方案会遇到很多极端情况（尽管这不是 Whisper 的责任）；即使在英语中，Whisper 有时也会在标点和句子分割上出错，有时只是吐出一大段未格式化的文本（尽管您可以通过 LLM 二次处理来修复此问题）。” 有人提到根据 HF 排行榜，存在更好的模型，并提供了链接：https://huggingface.co/spaces/hf-audio/open\_asr\_leaderboard ，但也有人指出该排行榜可能不能完全反映长文本的 ASR 情况。有人认为 VOSK 很不错，还有人觉得 Whisper base 对英语很好，Whisperv3 - Turbo 是最佳选择，虽然它没有标点，在识别说话者方面也存在不足。有人认为英伟达的模型性能高，但部署困难。

总的来说，对于 Whisper.cpp 在 STT 领域的地位，大家观点不一，仍存在许多争议和探讨的空间。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#