随着Kokoro、Zonos以及现在的Oprheus在开源语音合成(TTS)方面的狂热发布,我想我们很快就会看到一些下一代开源语音识别(STT)模型。哪怕是有着v3 turbo的质量但尺寸更小、能实时在边缘设备运行的模型就很棒了!有人在做类似的事情吗?
讨论总结
原帖对Whisper v3 turbo未被取代表示疑惑,并期待新的STT开源模型。评论从多个角度进行回应,包括对模型的评价(如Whisper的优势)、新模型的发布(如Canary - 1B - Flash)、开源情况的疑问、不同模型间在语言适用性等方面的比较,还有一些对模型改进的建议,整体氛围充满技术探讨性。
主要观点
- 👍 Whisper就其规模而言已经达到较好的水平
- 支持理由:如评论提到Whisper is arguably as good as you’re going to get for the size.
- 反对声音:无
- 🔥 需要更类似GPT - 3或有思考能力的模型来改进语音转文本(STT)领域
- 正方观点:Whisper系列类似STT领域的GPT - 2,需要更强大能力的模型提升性能。
- 反方观点:无
- 💡 Canary - 1B - Flash看起来有发展潜力且已完全开源
- 理由:相关评论指出其有前途并且已开源。
- 💡 多模态LLMs即将取代TTS
- 正方观点:多模态LLMs具备TTS AI能力且能利用语境。
- 反方观点:TTS模型本身有价值,如更轻量在转录方面也可做得很好。
- 💡 Whisper支持多种语言,在这方面比其他模型有独特优势
- 理由:与Nvidias nemo架构中的模型对比,Whisper支持99种语言。
金句与有趣评论
- “🤔 How to make a distilled model smaller? Where is the fat to cut?”
- 亮点:提出制作更小蒸馏模型的关键思考方向。
- “👀 Whisper is arguably as good as you’re going to get for the size.”
- 亮点:对Whisper现有规模下的水平给出肯定性评价。
- “😂 Canary - 1B - Flash just dropped.”
- 亮点:简洁传达新模型发布的信息。
- “🤔 TTS will be replaced by multimodal LLMs soon.”
- 亮点:提出一个关于技术发展趋势的大胆预测。
- “👀 I can get distil whisper v3 turbo for mere 0.02$/hr and run it by any Llm to clean up mistakes and still be 100x cheaper than this offering.”
- 亮点:通过对比说明现有产品定价过高。
情感分析
总体情感倾向比较中性,主要是在技术层面进行理性讨论。分歧点在于对一些模型的评价和技术发展趋势的判断,如多模态LLMs是否会取代TTS。可能的原因是大家基于不同的技术理解和应用场景的考量。
趋势与预测
- 新兴话题:多模态LLMs对TTS等模型的取代可能性会引发更多讨论。
- 潜在影响:如果多模态LLMs真的取代TTS,将对语音相关的应用开发和市场格局产生影响。
详细内容:
《关于 Whisper v3 Turbo 未被取代的热门讨论》
在 Reddit 上,一篇题为“ Why whisper v3 turbo has not been replaced?”的帖子引起了广泛关注,获得了众多点赞和大量评论。帖子中提出,随着 Kokoro、Zonos 和 Orpheus 在 TTS 开源领域的活跃表现,作者认为应该很快会有下一代 STT 开源模型出现,甚至期望能有像 Whisper v3 Turbo 那样质量高但体积更小、能在边缘实时运行的模型。
讨论焦点与观点分析:
- 有人认为应让模型更小,比如[Won3wan32]提出“如何让蒸馏模型更小?哪里有可削减的冗余?”,但[nuclearbananana]表示“不是要更小,而是要更好”。
- [IcyBricker]分享个人经历称,“Deepgram 提供 200 美元的免费信用额度,其新的 nova 3 价格便宜,使用其 API 并延长至 10 分钟超时,可以毫无问题地转录 2 小时以上的单个音频文件。”
- [Few_Painter_5588]认为“就体积而言,Whisper 可以说已经很好了。Whisper Turbo 结合 CTranslate2 在适度的硬件要求下几乎可以实时运行。”
- 关于模型的语言支持,[mpasila]指出“Parakeet 仅适用于英语(和日语的不同版本),Canary 适用于 4 种语言,Conformer 针对一种特定语言有多个模型。而 Whisper 另一方面是支持约 99 种语言的单个模型。”
- [nazihater3000]结合个人经历表示“同意。Whisper 很棒,但在某些情况下非常有限。我为二战纪录片创建字幕时,当叙述者说英语,有人开始说德语,还有英语旁白时,Whisper 就乱了。”
- [BusRevolutionary9893]认为“TTS 将很快被多模态 LLMs 取代,它们将具有与 TTS AI 相同的能力,还能使用上下文。”但[nuclearbananana]表示“仅仅想要转录而没有多模态 llm 的开销仍然是一个巨大的产业。”
这场讨论中,大家对于模型的性能、语言支持、未来发展方向等方面存在诸多不同看法,但也在一些方面达成了共识,比如对 Whisper 现有性能的肯定以及对未来模型改进的期待。各种独特的观点丰富了讨论,为相关领域的发展提供了多样的思考角度。
感谢您的耐心阅读!来选个表情,或者留个评论吧!