大家好,我是来自Hugging Face开源音频团队的VB,我们刚刚将模型检查点转换为Transformers格式:
模型检查点:https://huggingface.co/ylacombe/whisper-large-v3-turbo
Space:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo
发布的主要特点:
模型检查点包含809M参数(大约比Large v3快8倍且小2倍),且支持多语言
它与时间戳(单词和块)配合良好
使用4个解码器层,而Large v3使用32个
在Transformers中运行它应该很简单:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
model_id = "ylacombe/whisper-large-v3-turbo"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True, use_safetensors=True
)
model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)
pipe = pipeline(
"automatic-speech-recognition",
model=model,
tokenizer=processor.tokenizer,
feature_extractor=processor.feature_extractor,
torch_dtype=torch_dtype,
device="cuda",
)
sample = "file_name.mp3"
result = pipe(sample)
print(result["text"])
享受并告诉我们你的想法!!
讨论总结
本次讨论主要围绕Hugging Face团队将Whisper Turbo模型转换为Transformers格式展开。用户们普遍对这一技术进步表示赞赏,并深入探讨了Whisper Turbo在自动语音识别(ASR)领域的性能优势。讨论焦点包括与其他模型(如faster-whisper、Nvidia Canary)的性能对比、语言支持和标点处理能力、在Mac M芯片上的兼容性以及通过ctranslate2进一步提升速度的潜力。此外,还有用户对模型是否支持说话人识别功能表示关注。整体氛围积极,用户们对新技术的应用和优化充满期待。
主要观点
👍 Whisper Turbo在ASR领域的领先地位
- 支持理由:用户bdiler1惊叹于Whisper在ASR模型中的主导地位,认为其性能卓越。
- 反对声音:部分用户提到Nvidia Canary在某些方面可能更优,但语言支持较少。
🔥 Whisper Turbo与faster-whisper的性能对比
- 正方观点:用户bdiler1和Anxious-Activity-777希望了解两者在性能上的差异。
- 反方观点:目前缺乏详细的对比数据,需进一步测试验证。
💡 Whisper Turbo在Mac M芯片上的兼容性
- 支持理由:JimDabell和bharattrader确认了其在64GB M1 Max上的可行性,并提供了代码修改建议。
- 反对声音:部分用户对代码修改和额外库的安装表示担忧。
🚀 通过ctranslate2进一步提升速度
- 支持理由:Few_Painter_5588和JustOneAvailableName期待通过ctranslate2补丁进一步提升Whisper Turbo的速度。
- 反对声音:部分用户对实际效果表示怀疑,需等待补丁发布。
🌐 语言支持和标点处理
- 支持理由:natika1指出Whisper在某些语言上表现优于YouTube自动字幕。
- 反对声音:Dead_Internet_Theory提到Nvidia Canary缺乏标点符号处理能力。
金句与有趣评论
“😂 bdiler1: "Kudos to you! I still can not believe that Whisper dominates all the ASR models."”
- 亮点:表达了对Whisper在ASR领域卓越表现的惊叹。
“🤔 Zulfiqaar: "Nvidia Canary seems to now be at the top of the Open ASR leaderboard, give that a try?"”
- 亮点:提出了一个潜在的比较对象,引发了对不同模型性能的讨论。
“👀 MrClickstoomuch: "If processing speed is faster with that model at similar VRAM, and with marginally worse WER, I’d probably use the Whisper turbo for a locally hosted smart home like home assistant."”
- 亮点:结合实际应用场景,探讨了Whisper Turbo的优势。
“📈 JustOneAvailableName: "On my 4090 I went from 240X realtime to 820X realtime without degradation on the used dataset."”
- 亮点:分享了实际速度提升的数据,令人印象深刻。
“🔧 JimDabell: "Yes, it works fine here on a 64GB M1 Max. Just change
\\\"cuda\\\"
to\\\"mps\\\"
"”- 亮点:提供了在Mac M芯片上运行Whisper Turbo的实用建议。
情感分析
整体情感倾向积极,用户们对Whisper Turbo模型的性能提升和实际应用充满期待。主要分歧点在于与其他模型的性能对比以及在不同平台上的兼容性。积极情绪主要源于对新技术的认可和赞赏,而负面情绪则来自于对性能对比数据缺乏和代码修改的担忧。
趋势与预测
- 新兴话题:Whisper Turbo在多说话人场景下的应用及说话人识别功能的支持。
- 潜在影响:Whisper Turbo的优化和广泛应用有望进一步提升ASR技术的性能,推动智能家居和语音处理领域的发展。
详细内容:
《Whisper Turbo 在 Transformers 中获支持引发热议》
近日,Reddit 上一则关于“Whisper Turbo 现在在 Transformers 中获得支持”的帖子引发了广泛关注。该帖由来自 Hugging Face 开源音频团队的 VB 发布,帖子获得了众多点赞和大量评论。
帖子主要介绍了 Whisper Turbo 模型的相关信息,包括模型检查点、应用空间以及显著特点。其模型检查点为 809M 参数,具有多语言支持、能良好处理时间戳、使用 4 个解码器层等优势。运行方式在帖中也有详细说明。
讨论焦点主要集中在 Whisper Turbo 与其他相关模型的性能比较上。有人称赞道:“Kudos to you! 我仍不敢相信 Whisper 能在所有 ASR 模型中占据主导地位。能对比下它和 faster - whisper 的性能吗?” 还有人提出:“Nvidia Canary 似乎现在处于开放 ASR 排行榜的顶端,试试那个怎么样?不过它支持的语言少很多。”
有人分享个人经历:“在我的 4090 上,从 240 倍实时提升到 820 倍实时,在使用的数据集上没有性能下降。速度提升如此之大,我可能得再次寻找新的瓶颈了。”
也有人对语言支持等方面进行讨论,比如:“它只有 4 种语言,而且似乎没有标点,对吧?Whisper 常常能在合适的地方添加大写、括号、引号等,而我记得 Canary - 1B 不能。”
关于 Whisper Turbo 在不同设备上的运行情况也备受关注,有人询问:“它能在 mac M 芯片上运行吗?”得到回复称:“能,在 64GB M1 Max 上运行良好。只需把‘cuda’改为‘mps’。”
Whisper Turbo 此次在 Transformers 中的支持引发了众多技术爱好者的热烈讨论,大家都在期待它在实际应用中的表现。
感谢您的耐心阅读!来选个表情,或者留个评论吧!