原贴链接

随着Kokoro、Zonos以及现在的Oprheus在开源语音合成（TTS）方面的狂热发布，我想我们很快就会看到一些下一代开源语音识别（STT）模型。哪怕是有着v3 turbo的质量但尺寸更小、能实时在边缘设备运行的模型就很棒了！有人在做类似的事情吗？

讨论总结

原帖对Whisper v3 turbo未被取代表示疑惑，并期待新的STT开源模型。评论从多个角度进行回应，包括对模型的评价（如Whisper的优势）、新模型的发布（如Canary - 1B - Flash）、开源情况的疑问、不同模型间在语言适用性等方面的比较，还有一些对模型改进的建议，整体氛围充满技术探讨性。

主要观点

👍 Whisper就其规模而言已经达到较好的水平
- 支持理由：如评论提到Whisper is arguably as good as you’re going to get for the size.
- 反对声音：无
🔥 需要更类似GPT - 3或有思考能力的模型来改进语音转文本（STT）领域
- 正方观点：Whisper系列类似STT领域的GPT - 2，需要更强大能力的模型提升性能。
- 反方观点：无
💡 Canary - 1B - Flash看起来有发展潜力且已完全开源
- 理由：相关评论指出其有前途并且已开源。
💡 多模态LLMs即将取代TTS
- 正方观点：多模态LLMs具备TTS AI能力且能利用语境。
- 反方观点：TTS模型本身有价值，如更轻量在转录方面也可做得很好。
💡 Whisper支持多种语言，在这方面比其他模型有独特优势
- 理由：与Nvidias nemo架构中的模型对比，Whisper支持99种语言。

金句与有趣评论

“🤔 How to make a distilled model smaller? Where is the fat to cut?”
- 亮点：提出制作更小蒸馏模型的关键思考方向。
“👀 Whisper is arguably as good as you’re going to get for the size.”
- 亮点：对Whisper现有规模下的水平给出肯定性评价。
“😂 Canary - 1B - Flash just dropped.”
- 亮点：简洁传达新模型发布的信息。
“🤔 TTS will be replaced by multimodal LLMs soon.”
- 亮点：提出一个关于技术发展趋势的大胆预测。
“👀 I can get distil whisper v3 turbo for mere 0.02$/hr and run it by any Llm to clean up mistakes and still be 100x cheaper than this offering.”
- 亮点：通过对比说明现有产品定价过高。

情感分析

总体情感倾向比较中性，主要是在技术层面进行理性讨论。分歧点在于对一些模型的评价和技术发展趋势的判断，如多模态LLMs是否会取代TTS。可能的原因是大家基于不同的技术理解和应用场景的考量。

趋势与预测

新兴话题：多模态LLMs对TTS等模型的取代可能性会引发更多讨论。
潜在影响：如果多模态LLMs真的取代TTS，将对语音相关的应用开发和市场格局产生影响。

详细内容：

《关于 Whisper v3 Turbo 未被取代的热门讨论》

在 Reddit 上，一篇题为“ Why whisper v3 turbo has not been replaced?”的帖子引起了广泛关注，获得了众多点赞和大量评论。帖子中提出，随着 Kokoro、Zonos 和 Orpheus 在 TTS 开源领域的活跃表现，作者认为应该很快会有下一代 STT 开源模型出现，甚至期望能有像 Whisper v3 Turbo 那样质量高但体积更小、能在边缘实时运行的模型。

讨论焦点与观点分析：

有人认为应让模型更小，比如[Won3wan32]提出“如何让蒸馏模型更小？哪里有可削减的冗余？”，但[nuclearbananana]表示“不是要更小，而是要更好”。
[IcyBricker]分享个人经历称，“Deepgram 提供 200 美元的免费信用额度，其新的 nova 3 价格便宜，使用其 API 并延长至 10 分钟超时，可以毫无问题地转录 2 小时以上的单个音频文件。”
[Few_Painter_5588]认为“就体积而言，Whisper 可以说已经很好了。Whisper Turbo 结合 CTranslate2 在适度的硬件要求下几乎可以实时运行。”
关于模型的语言支持，[mpasila]指出“Parakeet 仅适用于英语（和日语的不同版本），Canary 适用于 4 种语言，Conformer 针对一种特定语言有多个模型。而 Whisper 另一方面是支持约 99 种语言的单个模型。”
[nazihater3000]结合个人经历表示“同意。Whisper 很棒，但在某些情况下非常有限。我为二战纪录片创建字幕时，当叙述者说英语，有人开始说德语，还有英语旁白时，Whisper 就乱了。”
[BusRevolutionary9893]认为“TTS 将很快被多模态 LLMs 取代，它们将具有与 TTS AI 相同的能力，还能使用上下文。”但[nuclearbananana]表示“仅仅想要转录而没有多模态 llm 的开销仍然是一个巨大的产业。”

这场讨论中，大家对于模型的性能、语言支持、未来发展方向等方面存在诸多不同看法，但也在一些方面达成了共识，比如对 Whisper 现有性能的肯定以及对未来模型改进的期待。各种独特的观点丰富了讨论，为相关领域的发展提供了多样的思考角度。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#