原贴链接

大家好,我是来自Hugging Face开源音频团队的VB,我们刚刚将模型检查点转换为Transformers格式:

模型检查点:https://huggingface.co/ylacombe/whisper-large-v3-turbo

Space:https://huggingface.co/spaces/hf-audio/whisper-large-v3-turbo

发布的主要特点:

  1. 模型检查点包含809M参数(大约比Large v3快8倍且小2倍),且支持多语言

  2. 它与时间戳(单词和块)配合良好

  3. 使用4个解码器层,而Large v3使用32个

在Transformers中运行它应该很简单:

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

model_id = "ylacombe/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch.float16, low_cpu_mem_usage=True, use_safetensors=True
)
model.to("cuda")

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device="cuda",
)

sample = "file_name.mp3"

result = pipe(sample)
print(result["text"])

享受并告诉我们你的想法!!

讨论总结

本次讨论主要围绕Hugging Face团队将Whisper Turbo模型转换为Transformers格式展开。用户们普遍对这一技术进步表示赞赏,并深入探讨了Whisper Turbo在自动语音识别(ASR)领域的性能优势。讨论焦点包括与其他模型(如faster-whisper、Nvidia Canary)的性能对比、语言支持和标点处理能力、在Mac M芯片上的兼容性以及通过ctranslate2进一步提升速度的潜力。此外,还有用户对模型是否支持说话人识别功能表示关注。整体氛围积极,用户们对新技术的应用和优化充满期待。

主要观点

  1. 👍 Whisper Turbo在ASR领域的领先地位

    • 支持理由:用户bdiler1惊叹于Whisper在ASR模型中的主导地位,认为其性能卓越。
    • 反对声音:部分用户提到Nvidia Canary在某些方面可能更优,但语言支持较少。
  2. 🔥 Whisper Turbo与faster-whisper的性能对比

    • 正方观点:用户bdiler1和Anxious-Activity-777希望了解两者在性能上的差异。
    • 反方观点:目前缺乏详细的对比数据,需进一步测试验证。
  3. 💡 Whisper Turbo在Mac M芯片上的兼容性

    • 支持理由:JimDabell和bharattrader确认了其在64GB M1 Max上的可行性,并提供了代码修改建议。
    • 反对声音:部分用户对代码修改和额外库的安装表示担忧。
  4. 🚀 通过ctranslate2进一步提升速度

    • 支持理由:Few_Painter_5588和JustOneAvailableName期待通过ctranslate2补丁进一步提升Whisper Turbo的速度。
    • 反对声音:部分用户对实际效果表示怀疑,需等待补丁发布。
  5. 🌐 语言支持和标点处理

    • 支持理由:natika1指出Whisper在某些语言上表现优于YouTube自动字幕。
    • 反对声音:Dead_Internet_Theory提到Nvidia Canary缺乏标点符号处理能力。

金句与有趣评论

  1. “😂 bdiler1: "Kudos to you! I still can not believe that Whisper dominates all the ASR models."”

    • 亮点:表达了对Whisper在ASR领域卓越表现的惊叹。
  2. “🤔 Zulfiqaar: "Nvidia Canary seems to now be at the top of the Open ASR leaderboard, give that a try?"”

    • 亮点:提出了一个潜在的比较对象,引发了对不同模型性能的讨论。
  3. “👀 MrClickstoomuch: "If processing speed is faster with that model at similar VRAM, and with marginally worse WER, I’d probably use the Whisper turbo for a locally hosted smart home like home assistant."”

    • 亮点:结合实际应用场景,探讨了Whisper Turbo的优势。
  4. “📈 JustOneAvailableName: "On my 4090 I went from 240X realtime to 820X realtime without degradation on the used dataset."”

    • 亮点:分享了实际速度提升的数据,令人印象深刻。
  5. “🔧 JimDabell: "Yes, it works fine here on a 64GB M1 Max. Just change \\\"cuda\\\" to \\\"mps\\\""”

    • 亮点:提供了在Mac M芯片上运行Whisper Turbo的实用建议。

情感分析

整体情感倾向积极,用户们对Whisper Turbo模型的性能提升和实际应用充满期待。主要分歧点在于与其他模型的性能对比以及在不同平台上的兼容性。积极情绪主要源于对新技术的认可和赞赏,而负面情绪则来自于对性能对比数据缺乏和代码修改的担忧。

趋势与预测

  • 新兴话题:Whisper Turbo在多说话人场景下的应用及说话人识别功能的支持。
  • 潜在影响:Whisper Turbo的优化和广泛应用有望进一步提升ASR技术的性能,推动智能家居和语音处理领域的发展。

详细内容:

《Whisper Turbo 在 Transformers 中获支持引发热议》

近日,Reddit 上一则关于“Whisper Turbo 现在在 Transformers 中获得支持”的帖子引发了广泛关注。该帖由来自 Hugging Face 开源音频团队的 VB 发布,帖子获得了众多点赞和大量评论。

帖子主要介绍了 Whisper Turbo 模型的相关信息,包括模型检查点、应用空间以及显著特点。其模型检查点为 809M 参数,具有多语言支持、能良好处理时间戳、使用 4 个解码器层等优势。运行方式在帖中也有详细说明。

讨论焦点主要集中在 Whisper Turbo 与其他相关模型的性能比较上。有人称赞道:“Kudos to you! 我仍不敢相信 Whisper 能在所有 ASR 模型中占据主导地位。能对比下它和 faster - whisper 的性能吗?” 还有人提出:“Nvidia Canary 似乎现在处于开放 ASR 排行榜的顶端,试试那个怎么样?不过它支持的语言少很多。”

有人分享个人经历:“在我的 4090 上,从 240 倍实时提升到 820 倍实时,在使用的数据集上没有性能下降。速度提升如此之大,我可能得再次寻找新的瓶颈了。”

也有人对语言支持等方面进行讨论,比如:“它只有 4 种语言,而且似乎没有标点,对吧?Whisper 常常能在合适的地方添加大写、括号、引号等,而我记得 Canary - 1B 不能。”

关于 Whisper Turbo 在不同设备上的运行情况也备受关注,有人询问:“它能在 mac M 芯片上运行吗?”得到回复称:“能,在 64GB M1 Max 上运行良好。只需把‘cuda’改为‘mps’。”

Whisper Turbo 此次在 Transformers 中的支持引发了众多技术爱好者的热烈讨论,大家都在期待它在实际应用中的表现。