原贴链接

由于我不能在常规的Hetzner VPS上托管它,我很好奇廉价转录400小时音频/视频的成本是多少。OpenAI API很贵,而且我不知道如何计算HuggingFace和Replicate的成本。我确定有特殊的GPU服务器。我听说过Fast AI之类的。我希望有做过这件事的人告诉我成本。我通过AI Studio询问过Gemini,它给出的最便宜的成本是144美元,太贵了。我的提示是:给我一份在像Hetzner这样5美元的VPS上托管OpenAI的Whisper Large v2模型与OpenAI API、HuggingFace、Replicate或其他GPU解决方案的成本明细。我想在1周内极快地转录400小时的音频/视频,并且希望成本尽可能低,我想要表格形式的细节。我也向带搜索功能的ChatGPT(不是DeepSearch,如果有人有结果的话我很想看看)问了同样的问题,得到了以下结果:下面是一个成本明细表示例(注意这些数字是基于2023 - 2024年初公布的基准和定价的粗略估计,实际成本可能会有所不同):|服务|成本明细与假设|400小时音频估计总成本|注释| |—-|—-|—-|—-| | 5美元VPS(仅CPU) | 每月约5美元固定费用 - 然而,Whisper Large v2的CPU推理比GPU慢约60倍,这意味着处理将需要数周时间 | 不可行 | 极其便宜但对于“极快”转录来说太慢(约为实时速度的60倍)| | Hetzner GPU实例(如RTX 4000) | 例如:GPU每小时约0.30美元;基准:1小时音频转录约需12.7分钟 → 成本≈0.30×(12.7/60)≈每小时音频0.0635美元 | 约25.40美元 | 自托管解决方案;需要设置和维护,但如果您能管理基础设施则非常划算 | | Runpod(T4 GPU) | T4租赁约每小时0.39美元;使用类似速度(约12.7分钟/1小时音频)→成本≈0.39×(12.7/60)≈每小时音频0.0825美元 | 约33.00美元 | 按需GPU租赁;按使用量付费提供灵活性 | | Replicate API | Replicate对Whisper运行的定价约为每次“运行”0.0029美元(大约是1分钟的音频块);假设1分钟音频 = 1次运行:400小时 = 24000分钟 | 约70.00美元 | 完全托管的按推理付费模式;可能需要将长文件分割成块 | | Hugging Face推理端点 | 根据类似的GPU端点估计约为每分钟转录0.0055美元(约每小时音频0.33美元) | 约132.00美元 | 有GPU支持的托管服务;定价可能因配置和使用情况而异 | | OpenAI Whisper API | 官方定价为每分钟转录0.006美元(即每小时音频约0.36美元);1小时音频→0.36美元;400小时×0.36美元 = 144.00美元 | 约144.00美元 | 完全托管、快速且“即插即用”,无基础设施开销 |###关键考虑因素 - 速度与设置:虽然便宜的5美元VPS在成本方面很有吸引力,但当您需要在一周内转录400小时时,其仅CPU的性能是不切实际的。GPU加速选项(无论是在Hetzner/Runpod上自托管还是通过API管理)对于“极快”的周转是必需的。 - 自托管与托管API:如果您能自如地管理服务器并确保转录期间的正常运行时间,自托管GPU实例(例如通过Hetzner或Runpod)可以非常经济(在25 - 33美元左右)。托管API(Replicate、Hugging Face、OpenAI)具有额外的便利性和可扩展性,但成本较高。 - 并行化:为了在1周内完成400小时的转录,您可能需要同时运行几个实例。该表假设 - 通过利用并行GPU资源 - 即使您缩短了实际运行时间,“每小时音频成本”总体上大致保持不变。选择最能平衡您的预算、技术能力和快速处理需求的选项。并且它确实给出了每月30 - 40美元这样的最终价格。这准确吗?如果我想进行自托管,OpenAI Whisper的最佳托管提供商是什么?我想在1周内完成400小时的转录。

讨论总结

原帖主想要在一周内转录400小时的音视频,正在寻找像Open AI Whisper v2 Large模型那样能提供高质量字幕的低成本解决方案,由于不能在常规的Hetzner VPS上进行托管,所以对各种可能的方案成本感到困惑。评论者们纷纷给出自己的建议和经验,包括推荐不同的服务(Groq、Salad、Deepgram等)、在本地设备(树莓派、Apple Silicon mac等)上运行、使用免费资源(Kaggle或Colab)等多种方案,同时也涉及到了一些特殊方法(如上传私人视频到YouTube获取转录)以及不同方案之间成本计算方式、适用场景、技术细节等方面的讨论。整体氛围比较积极,大家都在分享有价值的信息。

主要观点

  1. 👍 使用Groq转录成本较低,有多语言和仅英语不同收费标准
    • 支持理由:Groq的多语言版本每小时0.11美元,仅英语版本每小时0.02美元。
    • 反对声音:无。
  2. 🔥 上传私人视频到YouTube获取转录很廉价,但要权衡隐私问题
    • 正方观点:可得到免费转录文本,适用于将转录内容直接输入到大型语言模型进行总结的场景。
    • 反方观点:可能存在隐私泄露风险,且YouTube转录质量差。
  3. 💡 在树莓派4上可本地运行Whisper进行转录,免费且对英语讲座转录准确率高
    • 解释:在8GB的树莓派4上运行Whisper虽然速度慢,但效率高,对于英语讲座的转录准确率能达到96 - 98%,适合在睡觉期间进行操作。
  4. 💡 可以考虑WhisperX作为转录的一种选择并且可在CPU上运行faster - whisper
    • 解释:WhisperX是一个快速且准确的选择,还可以在CPU上运行faster - whisper,为寻求转录方案提供了新方向。
  5. 💡 不同转录服务成本计算方式不同,如Groq按音频通道收费
    • 解释:各服务有自己的成本计算逻辑,这是在比较不同转录服务时需要考虑的重要因素。

金句与有趣评论

  1. “😂 kpetrovsky: Check out Groq. Multilingual Whisper is 0.11/hour, english - only - 0.02/hour.”
    • 亮点:直接给出了Groq的收费标准,为讨论转录成本提供了具体数据。
  2. “🤔 I might get murdered for this suggestion here, but when I need transcriptions on the cheap I upload private videos to YouTube then copy out the text that get auto created when the video is uploaded.”
    • 亮点:提出了一种独特且有争议的获取廉价转录的方法。
  3. “👀 我在8GB的树莓派4上本地运行Whisper,速度虽慢但高效。”
    • 亮点:表明在本地设备上运行转录的可行性和特点。
  4. “🤔 为什么不选WhisperX呢?非常快速且准确。”
    • 亮点:简单有力地推荐WhisperX。
  5. “😂 Shawnrushefsky: Salad has a very affordable transcription api”
    • 亮点:简洁地推荐了Salad的转录API。

情感分析

总体情感倾向是积极的,大家都在积极分享自己的经验和建议来帮助原帖主解决转录成本的问题。主要分歧点在于一些特殊的转录方法(如上传视频到YouTube)是否可行,原因是涉及到隐私和转录质量的权衡;还有不同转录服务之间的比较,因为各自有不同的成本计算方式、速度、准确率等因素。

趋势与预测

  • 新兴话题:将Open AI Whisper与微软Word转录功能进行比较可能会引发后续讨论,这为转录成本比较提供了新的思路。
  • 潜在影响:如果能找到更便宜且高效的转录方案,可能会对有大量音视频转录需求的行业(如媒体、教育等)降低成本,提高工作效率。

详细内容:

《关于 Open AI Whisper 转录 400 小时音频/视频的成本探讨在 Reddit 引发热议》

在 Reddit 上,一篇题为“Open AI Whisper cost for transcribing 400 hours of audio/video in 1 week? What’s the cheapest cost-effective solution with quality subtitles like Whisper v2 Large model?”的帖子引起了众多关注。该帖子获得了大量的点赞和评论,主要讨论了如何以最经济高效的方式在一周内完成 400 小时音频/视频的转录。

讨论的焦点主要集中在各种转录方案的成本和效率上。有人提到 Groq ,称其多语言转录每小时仅 0.11 美元,仅英语则为 0.02 美元。还有人建议使用 Moonbase ,称其可能免费。也有人分享自己在 Raspberry Pi 4 上本地运行 Whisper 的经历,虽然速度慢但免费且效率不错,准确率能达到 96 - 98% 。

有人指出不要向 ChatGPT 询问这类比较信息,因其可能提供错误信息和计算结果。也有人提到将私人视频上传至 YouTube 进行转录,但需考虑隐私问题,且质量可能不佳。还有人推荐 Deepgram ,因其转录价格便宜。

有用户分享道:“我在 Raspberry Pi 4 上本地运行 Whisper ,速度慢但效率不错。免费且准确率接近 96 - 98% ,我通常在睡前导入文件,早上就能拿到转录结果。”

对于在 Mac 上运行转录的情况,有人认为这是可行的,只要合理安排时间,不会对电脑造成损害,但也有人担心电脑过热和老化的问题。

有人提到 Shadeform ,称其能帮助用户找到更实惠的 GPU 服务提供商。还有人提到 Salad 云服务,认为其具有一定的性价比。

有人建议使用 Kaggle 或 Colab ,因为它们是免费的,但可能存在上传和使用时间限制。

不同用户对各种方案的看法存在分歧。有人认为本地运行虽然慢但成本低,有人则更倾向于使用云端服务,尽管成本较高但效率更高。

总体而言,这次讨论为需要进行大量音频/视频转录的用户提供了丰富的参考和思考方向。但究竟哪种方案最适合,还需根据个人的预算、技术能力和时间需求来综合权衡。