在MacOS M1 Pro上转录66秒长音频文件所需时间：

Whisper Large V3 Turbo: 24秒
Whisper Large V3: 130秒

Whisper Large V3 Turbo在M1 Pro MacBook Pro上运行速度提升5.4倍。

测试演示：

https://reddit.com/link/1fvb83n/video/ai4gl58zcksd1/player

如何在本地测试？

安装nexa-sdk python包
然后，在终端中，复制并粘贴以下命令以测试每个模型，并使用streamlit UI进行本地测试
- nexa run faster-whisper-large-v3-turbo:bin-cpu-fp16 –streamlit
- nexa run faster-whisper-large-v3:bin-cpu-fp16 –streamlit

使用的模型：

Whisper-V3-Large-Turbo（新）：nexaai.com/Systran/faster-whisper-large-v3-turbo Whisper-V3-Large：nexaai.com/Systran/faster-whisper-large-v3

讨论总结

Open AI的新Whisper Turbo模型在M1 Pro上运行速度提升了5.4倍，这一性能提升引发了用户的广泛关注和讨论。用户们分享了使用Whisper Turbo模型的体验，讨论了其在实时流式输入/输出、实时助手解决方案、多模态支持等方面的应用潜力。同时，也有用户提出了关于模型准确度、幻觉问题、内存需求、CPU延迟等问题的担忧。

主要观点

👍 Whisper Turbo模型在本地运行速度显著提升
- 支持理由：用户分享的性能测试结果显示，Whisper Turbo模型在M1 Pro上运行速度提升了5.4倍。
- 反对声音：有用户对性能提升的实际效果表示怀疑，认为实际使用中的性能提升可能不如理论值。
🔥 Whisper Turbo模型在实时流式输入/输出中的应用潜力
- 正方观点：用户探讨了Whisper架构在处理实时流媒体时的挑战和可能的解决方案，认为实时转录是可行的。
- 反方观点：有用户指出Whisper架构设计为处理30秒的音频片段，这在实时流媒体应用中存在挑战。
💡 Whisper Turbo模型的多语言支持
- 用户讨论了Whisper Turbo模型的语言支持范围，确认该模型能够理解多种语言，包括日语和挪威语。
🤔 Whisper Turbo模型的准确度和幻觉问题
- 有用户对Whisper Turbo模型的准确度表示好奇，并询问了其与之前版本的对比情况。
- 有用户提出了关于模型幻觉问题的担忧，认为在提升速度的同时，可能在指标和幻觉方面存在问题。
😂 Whisper Turbo模型的内存需求和CPU延迟
- 用户询问了Whisper Turbo模型所需的内存大小以及在CPU上运行的延迟情况。
- 有用户反馈实际尝试时遇到了内存问题，特别是在M1 Max设备上。

金句与有趣评论

“😂 我使用了更快Whisper，速度真的很快！”
- 亮点：直接表达了用户对Whisper Turbo模型速度提升的满意和认可。
“🤔 Whisper架构是为处理30秒的音频片段而设计的，这对实时流媒体应用来说是一个挑战。”
- 亮点：指出了Whisper架构在实时流媒体应用中的局限性。
“👀 如果你能接受几秒钟的延迟，有一个高效的算法可以利用vad将音频分割成5-15秒的片段，提高准确性。”
- 亮点：提供了一种可能的解决方案，以实现更准确的实时转录。

情感分析

讨论的总体情感倾向是积极的，用户对Whisper Turbo模型的性能提升表示赞赏和认可。但也有一些担忧和问题，如准确度、幻觉问题、内存需求和CPU延迟等。主要分歧点在于模型性能的实际效果和实时处理能力。

趋势与预测

新兴话题：Whisper Turbo模型在实时流式输入/输出中的应用潜力和实时助手解决方案。
潜在影响：Whisper Turbo模型可能会在语音识别和实时转录领域引发新的技术革新，并对相关应用的发展产生积极影响。

详细内容：

标题：Open AI 的新 Whisper Turbo 模型在 M1 Pro 上本地运行速度惊人

在 Reddit 上，一个关于 Open AI 新 Whisper Turbo 模型的讨论引起了广泛关注。该帖子称，在 MacOS M1 Pro 上转录 66 秒长的音频文件，Whisper Large V3 Turbo 耗时 24 秒，而 Whisper Large V3 则需要 130 秒，Whisper Large V3 Turbo 在 M1 Pro MacBook Pro 上的运行速度快了 5.4 倍。此帖获得了众多点赞和大量评论。

讨论的焦点主要集中在以下几个方面：

有人表示在 4090 上能达到超过 850 倍的实时速度，且使用的是普通的 PyTorch 和 400 行代码。还有人分享了在不同硬件和系统上的测试经历，比如在 RTX3090 和 Linux 系统上，使用不同的模型和设置，转录时间有所不同。

有人提到 Whisper Turbo 模型在速度方面表现出色，这为在本地运行的实时助手解决方案提供了可能。但也有人指出，该模型存在资源开销、不是完全多模态以及中断困难等问题。

关于模型的语言支持，有人询问是否仅支持英语，得到了否定的回答。对于模型的准确性，也有人提出了与其他版本对比的疑问。

对于实时输入/输出的功能，有人认为 Whisper 的架构在处理实时流时有挑战，但也有可行的解决方案。有人提到利用 vad 算法将音频分割成 5 - 15 秒的片段，能提高准确性。

在个人经历和案例分享方面，有人称使用 faster whisper 速度很快，有人表示无法在特定设备上成功运行，还有人推荐了 MLX 变体。

总之，这次关于 Open AI 新 Whisper Turbo 模型的讨论十分热烈，涵盖了性能、应用、语言支持等多个方面，为大家提供了丰富的信息和不同的思考角度。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#