原贴链接

标题基本说明了问题。自Whisper发布以来,还有其他非常好的语音转文本(STT)技术吗?

讨论总结

原帖询问Whisper.cpp在语音转文本(STT)领域是否仍是王者,并探寻自Whisper发布后是否有其他优秀的STT。评论中有人对比Whisper不同版本性能,如推荐“large - v3” turbo版本;有人认为STT基本已解决但也遭到很多反驳;有人根据HF排行榜称有比Whisper更好的模型并分享whisper.cpp使用体验;还有人推荐了VOSK、Gemeni等其他STT,也有对Whisper各版本的评价以及单独寻求获取时间戳方法的评论,整体讨论比较理性客观。

主要观点

  1. 👍 认为STT基本已解决
    • 支持理由:可能未处理糟糕音频或口音情况所以觉得已解决。
    • 反对声音:不同条件下词错误率高、部分语言错误率超40%、说话人分类困难、英语标点和句子拆分有问题等表明远未解决。
  2. 🔥 根据HF排行榜存在比Whisper更好的模型
    • 正方观点:HF排行榜是依据,个人使用whisper.cpp存在问题,如在法语识别上效果不佳。
    • 反方观点:无(未提及)
  3. 💡 Whisper base在英语方面表现优秀且速度快、显存占用小
    • 解释:可以在英语上快速转换且对显存要求低。
  4. 💡 Whisperv3 - Turbo多语言准确性不如英语
    • 解释:在多语言使用时准确性不如英语方面表现。
  5. 💡 Gemeni在转录方面表现优秀且价格常常低于Whisper
    • 解释:在转录功能上表现佳并且价格有优势。

金句与有趣评论

  1. “😂 davernow:Not sure about alternatives, but if you do use Whisper, "large - v3" turbo from October blows the old models away for performance/quality tradeoffs”
    • 亮点:提供了Whisper不同版本间性能比较信息。
  2. “🤔 meaty_ochre:Yes, IMO it’s basically a solved problem, but I may be biased from not having to deal with bad audio or accents.”
    • 亮点:引出STT是否已解决的争议话题。
  3. “👀 phhusson:在我的个人使用中,whisper.cpp的某些版本在法语(巴黎口音)识别上效果不佳。”
    • 亮点:从个人使用角度给出whisper.cpp的问题。
  4. “🤔 Just_Young7838:For like top - 10 world languages it looks mostly solved, but there are some flaws: - other languages still struggle badly with 40+% WER”
    • 亮点:指出在部分语言中STT仍存在的问题。
  5. “😎 Whisperv3 - Turbo is the GOAT, a lot smaller than large, only 6GB VRAM required but comparable to large in accuracy, its the second fastest whisper model.”
    • 亮点:对Whisperv3 - Turbo模型的特性做出概括。

情感分析

总体情感倾向为中性,主要是在理性探讨STT相关问题。分歧点在于STT是否已解决以及Whisper是否仍是王者,可能的原因是不同人使用的场景、测试的语言、对模型要求不同等因素导致。

趋势与预测

  • 新兴话题:其他如Gemeni等模型是否能替代Whisper成为新的王者。
  • 潜在影响:如果有新的更好的STT模型,可能会影响语音转文本相关领域的市场格局和技术发展方向。

详细内容:

《关于 Whisper.cpp 在 STT 领域地位的热门讨论》

在 Reddit 上,有一篇题为“Is Whisper.cpp still the king of STT?”的帖子引发了热烈讨论。此帖获得了众多关注,评论数众多。帖子主要探讨了自 Whisper 发布以来,是否有其他优秀的语音转文本(STT)模型。

讨论焦点与观点分析: 有人认为 Whisper 的“large-v3”turbo 自 10 月份以来在性能和质量权衡方面表现出色。但也有人指出,比如使用 Whisper large 时,无法准确识别停顿为逗号,也不能区分男女声音,就像有用户分享道:“我正在使用 whisper large ,它无法将停顿识别为逗号,并且在男女声音切换时,它只是继续将所有内容都记录下来,仿佛是一个独白。有什么建议吗?” 还有人提到 WhisperX 可以进行单词级别的角色分配,通过 Pyannote 和 Segmentation 实现,过去使用效果不错,并提供了相关链接:https://github.com/m - bain/whisperX?tab=readme - ov - file#speaker - diarization 。 有人觉得 Whisper 对于世界排名前十的语言基本解决了问题,但对于其他语言仍存在较高的错误率,且说话者角色分配仍有困难。比如有人说:“对于像世界前 10 名的语言,它看起来大多已经解决了,但也有一些缺陷:其他语言仍然在 40%以上的词错误率上挣扎得很厉害;说话者角色分配仍然有点麻烦——像 Pyannote 和 NeMo 角色分配这样的现成解决方案会遇到很多极端情况(尽管这不是 Whisper 的责任);即使在英语中,Whisper 有时也会在标点和句子分割上出错,有时只是吐出一大段未格式化的文本(尽管您可以通过 LLM 二次处理来修复此问题)。” 有人提到根据 HF 排行榜,存在更好的模型,并提供了链接:https://huggingface.co/spaces/hf-audio/open\_asr\_leaderboard ,但也有人指出该排行榜可能不能完全反映长文本的 ASR 情况。 有人认为 VOSK 很不错,还有人觉得 Whisper base 对英语很好,Whisperv3 - Turbo 是最佳选择,虽然它没有标点,在识别说话者方面也存在不足。 有人认为英伟达的模型性能高,但部署困难。

总的来说,对于 Whisper.cpp 在 STT 领域的地位,大家观点不一,仍存在许多争议和探讨的空间。