原贴链接

REV AI发布了一款新的自动语音识别(ASR)模型,名为Reverb,声称其性能超过了Whisper-Large V3。更多信息请参考官方博客:https://www.rev.com/blog/speech-to-text-technology/introducing-reverb-open-source-asr-diarization

讨论总结

REV AI发布的新ASR模型Reverb引发了广泛讨论,主要集中在以下几个方面:

  1. 许可协议:用户对非商业许可的限制表示不满,认为这限制了模型的应用范围。REV AI员工解释了三种许可协议,并表达了未来可能更开放许可的愿望。
  2. 语言支持:当前模型仅支持英语,用户对多语言支持,特别是日语、德语等语言的需求强烈。
  3. 技术性能:有用户赞赏Reverb在话者分离方面的表现,但也有人对其在Python中的使用体验和速度性能提出疑问。
  4. 与Whisper对比:用户普遍认为Whisper因免费和开源而更受欢迎,但也认可Reverb在某些方面的优势。
  5. 市场营销:有用户指出REV AI需要加强市场营销,提升产品知名度。

主要观点

  1. 👍 非商业许可限制
    • 支持理由:保护公司利益,确保研发投入有回报。
    • 反对声音:限制了小型公司和个体开发者的使用。
  2. 🔥 多语言支持需求
    • 正方观点:多语言支持能大幅提升模型的使用价值。
    • 反方观点:单一语言模型在稳定性上有优势。
  3. 💡 与Whisper的对比
    • Reverb在某些技术指标上优于Whisper,但Whisper的免费和开源特性更受欢迎。
  4. 🚀 技术性能讨论
    • Reverb在话者分离方面表现优异,但在速度和易用性上有待提升。
  5. 📈 市场营销建议
    • REV AI应通过开源社区和有奖竞赛等策略提升产品知名度。

金句与有趣评论

  1. “😂 These models are accessible under a non-commercial license.” Not a slight, just not something I’m able to use.” — laexpat
    • 亮点:简洁表达了对许可限制的无奈。
  2. “🤔 We’re not a large VC backed company, we used our internal research team to build this, and we used our own data which we legally obtained over the last decade with permission from a subset of our customers.” — leeharris100
    • 亮点:解释了公司背景和数据来源,增加了透明度。
  3. “👀 You might want to consider a free commercial tier for a certain low threshhold of usage which doesn’t make economical sense to invoice.” — DeltaSqueezer
    • 亮点:提出了切实可行的许可模式建议。
  4. “😂 Or we can just use whisper lol” — nero10579
    • 亮点:幽默地表达了对Whisper的偏好。
  5. “🚀 Absolutely, we talked this over a thousand times. Whisper is incredible and we use it for Rev.com products for languages we don’t support in our models/language packs.” — leeharris100
    • 亮点:坦诚地认可了竞争对手的优势。

情感分析

总体情感倾向是复杂且多元的。用户对Reverb的技术性能表示赞赏,但对许可限制和语言支持不足感到失望。讨论中既有对REV AI的支持和理解,也有对改进和开放的强烈呼声。

趋势与预测

  • 新兴话题:多语言支持和更灵活的许可协议可能成为后续讨论的热点。
  • 潜在影响:Reverb的进一步发展和开放可能会推动ASR技术的普及和应用,特别是在商业和个体开发者领域。

详细内容:

标题:REV AI 新 ASR 模型引发 Reddit 热议

REV AI 发布了一款新的 ASR 模型,宣称超越了 Whisper-Large V3。该帖子https://www.rev.com/blog/speech-to-text-technology/introducing-reverb-open-source-asr-diarization获得了众多关注,引发了关于模型的性能、语言支持、开源性质以及商业模式等多方面的热烈讨论。

讨论焦点与观点分析: 有人认为,REV AI 不是大型风投支持的公司,通过限制性授权难以盈利,在完全开源并获得社区真实反馈之前,很难吸引用户在生产中使用。但也有人指出,REV AI 是世界上最大且最受推崇的语音转文本服务公司,很多财富 500 强公司都会选择其服务,并不太在意开源与否。

有人建议为一定低使用量设置免费的商业层级,例如每月/每年低于某个阈值免费。还有人表示,如果没有风险投资,就需要用户支持,应允许个人在几乎无损失的情况下免费使用。

关于语言支持,REV AI 目前发布的是英语模型,后续将推出西班牙语、法语、葡萄牙语等模型。有人认为单语言模型有稳定性优势,也有人认为能够理解多种语言是优势,希望推出混合语言模型。

在授权方面,有人对其许可证感到失望,认为禁止所有商业使用不合理。REV AI 表示愿意听取反馈并改进,考虑根据公司规模和收入来调整授权政策。

有人称赞 REV AI 还发布了据其所知是最先进的对话分离模型,但希望在 Python 中的推理能更简单直接。还有人好奇其性能与 Whisper Turbo 相比如何,以及是否支持微调、开源训练器和数据集模式等。

也有人认为该模型并非真正的开源,数据集封闭、没有训练代码且许可证不宽松。还有人对其陌生,表示公司需要加强营销。

总之,REV AI 的新模型在 Reddit 上引发了广泛而深入的讨论,不同观点的碰撞展现了人们对语音转文本技术的关注和期待。