原贴链接

在MacOS M1 Pro上转录66秒长音频文件所需时间:

  • Whisper Large V3 Turbo: 24秒
  • Whisper Large V3: 130秒

Whisper Large V3 Turbo在M1 Pro MacBook Pro上运行速度提升5.4倍

测试演示:

https://reddit.com/link/1fvb83n/video/ai4gl58zcksd1/player

如何在本地测试?

  1. 安装nexa-sdk python包
  2. 然后,在终端中,复制并粘贴以下命令以测试每个模型,并使用streamlit UI进行本地测试
    • nexa run faster-whisper-large-v3-turbo:bin-cpu-fp16 –streamlit
    • nexa run faster-whisper-large-v3:bin-cpu-fp16 –streamlit

使用的模型:

Whisper-V3-Large-Turbo(新):nexaai.com/Systran/faster-whisper-large-v3-turbo Whisper-V3-Large:nexaai.com/Systran/faster-whisper-large-v3

讨论总结

Open AI的新Whisper Turbo模型在M1 Pro上运行速度提升了5.4倍,这一性能提升引发了用户的广泛关注和讨论。用户们分享了使用Whisper Turbo模型的体验,讨论了其在实时流式输入/输出、实时助手解决方案、多模态支持等方面的应用潜力。同时,也有用户提出了关于模型准确度、幻觉问题、内存需求、CPU延迟等问题的担忧。

主要观点

  1. 👍 Whisper Turbo模型在本地运行速度显著提升
    • 支持理由:用户分享的性能测试结果显示,Whisper Turbo模型在M1 Pro上运行速度提升了5.4倍。
    • 反对声音:有用户对性能提升的实际效果表示怀疑,认为实际使用中的性能提升可能不如理论值。
  2. 🔥 Whisper Turbo模型在实时流式输入/输出中的应用潜力
    • 正方观点:用户探讨了Whisper架构在处理实时流媒体时的挑战和可能的解决方案,认为实时转录是可行的。
    • 反方观点:有用户指出Whisper架构设计为处理30秒的音频片段,这在实时流媒体应用中存在挑战。
  3. 💡 Whisper Turbo模型的多语言支持
    • 用户讨论了Whisper Turbo模型的语言支持范围,确认该模型能够理解多种语言,包括日语和挪威语。
  4. 🤔 Whisper Turbo模型的准确度和幻觉问题
    • 有用户对Whisper Turbo模型的准确度表示好奇,并询问了其与之前版本的对比情况。
    • 有用户提出了关于模型幻觉问题的担忧,认为在提升速度的同时,可能在指标和幻觉方面存在问题。
  5. 😂 Whisper Turbo模型的内存需求和CPU延迟
    • 用户询问了Whisper Turbo模型所需的内存大小以及在CPU上运行的延迟情况。
    • 有用户反馈实际尝试时遇到了内存问题,特别是在M1 Max设备上。

金句与有趣评论

  1. “😂 我使用了更快Whisper,速度真的很快!”
    • 亮点:直接表达了用户对Whisper Turbo模型速度提升的满意和认可。
  2. “🤔 Whisper架构是为处理30秒的音频片段而设计的,这对实时流媒体应用来说是一个挑战。”
    • 亮点:指出了Whisper架构在实时流媒体应用中的局限性。
  3. “👀 如果你能接受几秒钟的延迟,有一个高效的算法可以利用vad将音频分割成5-15秒的片段,提高准确性。”
    • 亮点:提供了一种可能的解决方案,以实现更准确的实时转录。

情感分析

讨论的总体情感倾向是积极的,用户对Whisper Turbo模型的性能提升表示赞赏和认可。但也有一些担忧和问题,如准确度、幻觉问题、内存需求和CPU延迟等。主要分歧点在于模型性能的实际效果和实时处理能力。

趋势与预测

  • 新兴话题:Whisper Turbo模型在实时流式输入/输出中的应用潜力和实时助手解决方案。
  • 潜在影响:Whisper Turbo模型可能会在语音识别和实时转录领域引发新的技术革新,并对相关应用的发展产生积极影响。

详细内容:

标题:Open AI 的新 Whisper Turbo 模型在 M1 Pro 上本地运行速度惊人

在 Reddit 上,一个关于 Open AI 新 Whisper Turbo 模型的讨论引起了广泛关注。该帖子称,在 MacOS M1 Pro 上转录 66 秒长的音频文件,Whisper Large V3 Turbo 耗时 24 秒,而 Whisper Large V3 则需要 130 秒,Whisper Large V3 Turbo 在 M1 Pro MacBook Pro 上的运行速度快了 5.4 倍。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面:

有人表示在 4090 上能达到超过 850 倍的实时速度,且使用的是普通的 PyTorch 和 400 行代码。还有人分享了在不同硬件和系统上的测试经历,比如在 RTX3090 和 Linux 系统上,使用不同的模型和设置,转录时间有所不同。

有人提到 Whisper Turbo 模型在速度方面表现出色,这为在本地运行的实时助手解决方案提供了可能。但也有人指出,该模型存在资源开销、不是完全多模态以及中断困难等问题。

关于模型的语言支持,有人询问是否仅支持英语,得到了否定的回答。对于模型的准确性,也有人提出了与其他版本对比的疑问。

对于实时输入/输出的功能,有人认为 Whisper 的架构在处理实时流时有挑战,但也有可行的解决方案。有人提到利用 vad 算法将音频分割成 5 - 15 秒的片段,能提高准确性。

在个人经历和案例分享方面,有人称使用 faster whisper 速度很快,有人表示无法在特定设备上成功运行,还有人推荐了 MLX 变体。

总之,这次关于 Open AI 新 Whisper Turbo 模型的讨论十分热烈,涵盖了性能、应用、语言支持等多个方面,为大家提供了丰富的信息和不同的思考角度。