大家好，我是来自Hugging Face开源音频团队的VB，我们刚刚将模型检查点转换为Transformers格式：

模型检查点：https://huggingface.co/ylacombe/whisper-large-v3-turbo

Space：https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

发布的主要特点：

模型检查点包含809M参数（大约比Large v3快8倍且小2倍），且支持多语言
它与时间戳（单词和块）配合良好
使用4个解码器层，而Large v3使用32个

在Transformers中运行它应该很简单：

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

model_id = "ylacombe/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True, use_safetensors=True
)
model.to("cuda")

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device="cuda",
)

sample = "file_name.mp3"

result = pipe(sample)
print(result["text"])

享受并告诉我们你的想法！！

讨论总结

本次讨论主要围绕Hugging Face团队将Whisper Turbo模型转换为Transformers格式展开。用户们普遍对这一技术进步表示赞赏，并深入探讨了Whisper Turbo在自动语音识别（ASR）领域的性能优势。讨论焦点包括与其他模型（如faster-whisper、Nvidia Canary）的性能对比、语言支持和标点处理能力、在Mac M芯片上的兼容性以及通过ctranslate2进一步提升速度的潜力。此外，还有用户对模型是否支持说话人识别功能表示关注。整体氛围积极，用户们对新技术的应用和优化充满期待。

主要观点

👍 Whisper Turbo在ASR领域的领先地位
- 支持理由：用户bdiler1惊叹于Whisper在ASR模型中的主导地位，认为其性能卓越。
- 反对声音：部分用户提到Nvidia Canary在某些方面可能更优，但语言支持较少。
🔥 Whisper Turbo与faster-whisper的性能对比
- 正方观点：用户bdiler1和Anxious-Activity-777希望了解两者在性能上的差异。
- 反方观点：目前缺乏详细的对比数据，需进一步测试验证。
💡 Whisper Turbo在Mac M芯片上的兼容性
- 支持理由：JimDabell和bharattrader确认了其在64GB M1 Max上的可行性，并提供了代码修改建议。
- 反对声音：部分用户对代码修改和额外库的安装表示担忧。
🚀 通过ctranslate2进一步提升速度
- 支持理由：Few_Painter_5588和JustOneAvailableName期待通过ctranslate2补丁进一步提升Whisper Turbo的速度。
- 反对声音：部分用户对实际效果表示怀疑，需等待补丁发布。
🌐 语言支持和标点处理
- 支持理由：natika1指出Whisper在某些语言上表现优于YouTube自动字幕。
- 反对声音：Dead_Internet_Theory提到Nvidia Canary缺乏标点符号处理能力。

金句与有趣评论

“😂 bdiler1: "Kudos to you! I still can not believe that Whisper dominates all the ASR models."”
- 亮点：表达了对Whisper在ASR领域卓越表现的惊叹。
“🤔 Zulfiqaar: "Nvidia Canary seems to now be at the top of the Open ASR leaderboard, give that a try?"”
- 亮点：提出了一个潜在的比较对象，引发了对不同模型性能的讨论。
“👀 MrClickstoomuch: "If processing speed is faster with that model at similar VRAM, and with marginally worse WER, I’d probably use the Whisper turbo for a locally hosted smart home like home assistant."”
- 亮点：结合实际应用场景，探讨了Whisper Turbo的优势。
“📈 JustOneAvailableName: "On my 4090 I went from 240X realtime to 820X realtime without degradation on the used dataset."”
- 亮点：分享了实际速度提升的数据，令人印象深刻。
“🔧 JimDabell: "Yes, it works fine here on a 64GB M1 Max. Just change \\\"cuda\\\" to \\\"mps\\\""”
- 亮点：提供了在Mac M芯片上运行Whisper Turbo的实用建议。

情感分析

整体情感倾向积极，用户们对Whisper Turbo模型的性能提升和实际应用充满期待。主要分歧点在于与其他模型的性能对比以及在不同平台上的兼容性。积极情绪主要源于对新技术的认可和赞赏，而负面情绪则来自于对性能对比数据缺乏和代码修改的担忧。

趋势与预测

新兴话题：Whisper Turbo在多说话人场景下的应用及说话人识别功能的支持。
潜在影响：Whisper Turbo的优化和广泛应用有望进一步提升ASR技术的性能，推动智能家居和语音处理领域的发展。

详细内容：

《Whisper Turbo 在 Transformers 中获支持引发热议》

近日，Reddit 上一则关于“Whisper Turbo 现在在 Transformers 中获得支持”的帖子引发了广泛关注。该帖由来自 Hugging Face 开源音频团队的 VB 发布，帖子获得了众多点赞和大量评论。

帖子主要介绍了 Whisper Turbo 模型的相关信息，包括模型检查点、应用空间以及显著特点。其模型检查点为 809M 参数，具有多语言支持、能良好处理时间戳、使用 4 个解码器层等优势。运行方式在帖中也有详细说明。

讨论焦点主要集中在 Whisper Turbo 与其他相关模型的性能比较上。有人称赞道：“Kudos to you! 我仍不敢相信 Whisper 能在所有 ASR 模型中占据主导地位。能对比下它和 faster - whisper 的性能吗？” 还有人提出：“Nvidia Canary 似乎现在处于开放 ASR 排行榜的顶端，试试那个怎么样？不过它支持的语言少很多。”

有人分享个人经历：“在我的 4090 上，从 240 倍实时提升到 820 倍实时，在使用的数据集上没有性能下降。速度提升如此之大，我可能得再次寻找新的瓶颈了。”

也有人对语言支持等方面进行讨论，比如：“它只有 4 种语言，而且似乎没有标点，对吧？Whisper 常常能在合适的地方添加大写、括号、引号等，而我记得 Canary - 1B 不能。”

关于 Whisper Turbo 在不同设备上的运行情况也备受关注，有人询问：“它能在 mac M 芯片上运行吗？”得到回复称：“能，在 64GB M1 Max 上运行良好。只需把‘cuda’改为‘mps’。”

Whisper Turbo 此次在 Transformers 中的支持引发了众多技术爱好者的热烈讨论，大家都在期待它在实际应用中的表现。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#