大家好,
我很高兴向大家介绍 Wavify,这是一组小型语音转文本模型,搭配一个极快的跨平台运行时。它还提供了 Python、Kotlin、Swift 和 Rust SDK。未来版本将添加更多绑定。
安装和使用
https://github.com/wavify-labs/wavify-sdks
亮点
在 Raspberry Pi 4 上处理 jfk.wav
的性能:
引擎 | 大小 | 线程 | 时间 | 实时因子 |
---|---|---|---|---|
Whisper.cpp (-O3 with NEON) | 75MB (Whisper tiny) | 4 | 9.2s | 0.84 |
Wavify | 45MB | 4 | 3.8s | 0.35 |
关于词错误率(WER)的性能需要与 Whisper 等模型进行彻底的基准测试,这并不容易,因为存在数据泄露问题。实际上,你可以预期其性能与 Whisper tiny 或 base 相似。
适用对象?
- 个人免费使用:个人项目可以免费享受 Wavify。
- 商业用户:商业用途需要订阅。
Wavify 仍处于早期阶段,我们非常期待听到您的反馈。欢迎提出您的意见和功能请求。
演示
讨论总结
Reddit用户对新推出的Wavify语音处理工具进行了广泛讨论,主要关注其性能、商业许可和语言支持等方面。评论者对Wavify的速度提升表示兴趣,但对其与Whisper在词错误率(WER)方面的比较表示疑虑。此外,商业许可和API密钥的使用也引发了争议,特别是关于设备限制和开源策略的问题。语言支持和流式处理功能也受到了关注。总体上,讨论显示了对Wavify性能和商业模式的期待与担忧并存。
主要观点
- 👍 Wavify需要提供与Whisper在词错误率(WER)方面的比较
- 支持理由:这有助于更准确地评估Wavify的性能提升。
- 反对声音:缺乏比较数据使得难以判断其真实性能。
- 🔥 Wavify如果能与Whisper的“base”模型竞争,将是一个显著的成就
- 正方观点:这将证明Wavify在性能上的优势。
- 反方观点:目前缺乏足够的证据支持这一观点。
- 💡 STT模型在易于教授新词汇方面可能是一个区别于Whisper的机会
- 解释:这可能是Wavify在功能上的一个创新点。
- 🚀 Wavify的流式处理功能正在开发中
- 解释:这将填补Whisper在这一领域的不足。
- 🌐 Wavify支持多种语言,包括英语、中文、德语等29种语言
- 解释:这显示了Wavify在语言支持上的广泛性。
金句与有趣评论
- “😂 coder543:I upvoted, but without any kind of WER comparison, it’s hard to know how excited I should be.”
- 亮点:强调了性能比较的重要性。
- “🤔 Bitter-Raisin-3251:Why this: "You’ll also need an API key which is available for free."? Why not fully local?”
- 亮点:提出了对API密钥使用的疑问。
- “👀 17UhrGesundbrunnen:A streaming aware mode is a work in progress. It will take a few weeks tho.”
- 亮点:透露了流式处理功能的开发进展。
情感分析
讨论的总体情感倾向较为复杂,既有对Wavify性能和功能的期待,也有对其商业许可和API密钥使用的担忧。主要分歧点在于Wavify与Whisper的性能比较和商业模式的合理性。可能的原因包括对开源精神的期待与商业利益的冲突。
趋势与预测
- 新兴话题:流式处理功能和多语言支持可能成为后续讨论的热点。
- 潜在影响:Wavify的性能提升和商业模式可能对语音处理领域产生重要影响,特别是对依赖语音识别技术的行业。
感谢您的耐心阅读!来选个表情,或者留个评论吧!