原贴链接

大家好,

我很高兴向大家介绍 Wavify,这是一组小型语音转文本模型,搭配一个极快的跨平台运行时。它还提供了 Python、Kotlin、Swift 和 Rust SDK。未来版本将添加更多绑定。

安装和使用

https://github.com/wavify-labs/wavify-sdks

亮点

在 Raspberry Pi 4 上处理 jfk.wav 的性能:

引擎大小线程时间实时因子
Whisper.cpp (-O3 with NEON)75MB (Whisper tiny)49.2s0.84
Wavify45MB43.8s0.35

关于词错误率(WER)的性能需要与 Whisper 等模型进行彻底的基准测试,这并不容易,因为存在数据泄露问题。实际上,你可以预期其性能与 Whisper tiny 或 base 相似。

适用对象?

  • 个人免费使用:个人项目可以免费享受 Wavify。
  • 商业用户:商业用途需要订阅。

Wavify 仍处于早期阶段,我们非常期待听到您的反馈。欢迎提出您的意见和功能请求。

演示

Wavify on iOS

讨论总结

Reddit用户对新推出的Wavify语音处理工具进行了广泛讨论,主要关注其性能、商业许可和语言支持等方面。评论者对Wavify的速度提升表示兴趣,但对其与Whisper在词错误率(WER)方面的比较表示疑虑。此外,商业许可和API密钥的使用也引发了争议,特别是关于设备限制和开源策略的问题。语言支持和流式处理功能也受到了关注。总体上,讨论显示了对Wavify性能和商业模式的期待与担忧并存。

主要观点

  1. 👍 Wavify需要提供与Whisper在词错误率(WER)方面的比较
    • 支持理由:这有助于更准确地评估Wavify的性能提升。
    • 反对声音:缺乏比较数据使得难以判断其真实性能。
  2. 🔥 Wavify如果能与Whisper的“base”模型竞争,将是一个显著的成就
    • 正方观点:这将证明Wavify在性能上的优势。
    • 反方观点:目前缺乏足够的证据支持这一观点。
  3. 💡 STT模型在易于教授新词汇方面可能是一个区别于Whisper的机会
    • 解释:这可能是Wavify在功能上的一个创新点。
  4. 🚀 Wavify的流式处理功能正在开发中
    • 解释:这将填补Whisper在这一领域的不足。
  5. 🌐 Wavify支持多种语言,包括英语、中文、德语等29种语言
    • 解释:这显示了Wavify在语言支持上的广泛性。

金句与有趣评论

  1. “😂 coder543:I upvoted, but without any kind of WER comparison, it’s hard to know how excited I should be.”
    • 亮点:强调了性能比较的重要性。
  2. “🤔 Bitter-Raisin-3251:Why this: "You’ll also need an API key which is available for free."? Why not fully local?”
    • 亮点:提出了对API密钥使用的疑问。
  3. “👀 17UhrGesundbrunnen:A streaming aware mode is a work in progress. It will take a few weeks tho.”
    • 亮点:透露了流式处理功能的开发进展。

情感分析

讨论的总体情感倾向较为复杂,既有对Wavify性能和功能的期待,也有对其商业许可和API密钥使用的担忧。主要分歧点在于Wavify与Whisper的性能比较和商业模式的合理性。可能的原因包括对开源精神的期待与商业利益的冲突。

趋势与预测

  • 新兴话题:流式处理功能和多语言支持可能成为后续讨论的热点。
  • 潜在影响:Wavify的性能提升和商业模式可能对语音处理领域产生重要影响,特别是对依赖语音识别技术的行业。