原贴链接

经过漫长的等待,SoftWhisper(Whisper API的前端)的新版本发布了!最棒的是,不再依赖PyTorch了,现在只需安装和运行。前端的改动很小,但后端改动很大。对PyTorch的依赖让普通用户安装和运行这个程序变得复杂得多,所以我决定移除这种依赖。最初我会使用原版OpenAI AI+ZLUDA,但可惜PyTorch的支持还不够完善。所以我决定使用Whisper.cpp作为后端,事实证明这是个不错的决定:现在我们能在2 - 3分钟内转录2小时的视频。如果使用Windows系统,我已经提供了带有Vulkan支持的Whisper.cpp预构建版本作为后端,所以不需要额外步骤,只需下载SoftWhisper并用python [SoftWhisper.py]运行。不幸的是,我还没有在Linux下测试这个软件。我计划也为Linux提供预构建的静态版本的Whisper.cpp,但与此同时,Linux用户可以自己编译Whisper.cpp并将可执行文件添加到“Whisper.cpp executable”字段。还请注意,在这个版本中我没能让说话者二值化功能正常工作,所以我不得不移除它,将来可能会重新添加。不过考虑到性能的提升,这是个小代价。享受使用吧,有任何问题请告诉我。[原始发布链接:https://www.reddit.com/r/LocalLLaMA/comments/1fvncqc/comment/mh7t4z7/?context=3]

讨论总结

这是一个关于SoftWhisper更新的讨论。用户们从多个方面展开讨论,包括软件功能(如是否支持SRT文件输出、话者分离等)、性能比较(如与其他相关软件或不同版本间的速度对比)、软件依赖(如PyTorch的使用与否)、项目贡献以及对软件更新的疑惑等,整体讨论热度较低,态度较为平和。

主要观点

  1. 👍 对SoftWhisper更新感到高兴
    • 支持理由:新发布有诸多改进,如不再依赖PyTorch、转录速度快等。
    • 反对声音:无
  2. 🔥 对SoftWhisper功能不理解
    • 正方观点:一些用户不了解SoftWhisper功能,习惯自己的交互方式。
    • 反方观点:有用户解释SoftWhisper是Whisper模型前端,可音频转文本。
  3. 💡 询问项目是否需要贡献
    • 支持理由:自己有相关经验,如话者分离工作,可能有助于项目。
    • 反对声音:无
  4. 🤔 对SoftWhisper速度提升表示怀疑
    • 正方观点:使用者之前用PyTorch速度没那么慢,质疑新软件速度提升程度。
    • 反方观点:解释新软件在性能上更优的原因,强调速度提升确实可观。
  5. 👀 质疑SoftWhisper的实用性
    • 支持理由:自己曾更快完成转录任务,且认为SoftWhisper源代码简陋。
    • 反方观点:无

金句与有趣评论

  1. “😂 oh nice! does this output SRT files in the export function?”
    • 亮点:直接询问软件功能,体现用户对特定功能的关注。
  2. “🤔 我不太明白它是做什么的。”
    • 亮点:反映部分用户对SoftWhisper功能的初始疑惑。
  3. “👀 I did 2 hour transcribes in 1m20s one year ago (March 2024) on RTX 4070 with Whisper - S2T on CTranslate2 backend with Large v2 model.”
    • 亮点:通过自身经验数据来质疑SoftWhisper的速度优势。
  4. “😎 do not put.exe or.dll on version control, that is not how you do things.”
    • 亮点:从操作规范角度提出对项目的看法。
  5. “💡 它是Whisper模型的前端,并且能将音频转换为文本。”
    • 亮点:明确解释了SoftWhisper的功能。

情感分析

总体情感倾向较为中立。主要分歧点在于对SoftWhisper性能和实用性的看法,部分用户看好其更新带来的优势而感到兴奋,部分用户则基于自身经验对其速度、性能等方面提出质疑。可能的原因是不同用户使用的设备、工具及自身的经验不同,导致对SoftWhisper的评价存在差异。

趋势与预测

  • 新兴话题:关于SoftWhisper与其他类似软件(如Whisper XXL、faster - whisper)的对比可能会引发后续讨论。
  • 潜在影响:如果SoftWhisper存在如用户质疑的问题,可能会影响其在相关领域(如音频转录、视频编辑等)的推广和使用。

详细内容:

标题:SoftWhisper 更新——2 小时视频 2 分钟转录

SoftWhisper 最新版本发布,引发了 Reddit 上的热烈讨论。此帖获得了众多关注,评论数众多。原帖主要介绍了新版本的 SoftWhisper 不再依赖 Pytorch,安装和运行变得更加简便,后端改动较大,现在能够在 2 - 3 分钟内转录 2 小时的视频,并提供了详细的安装步骤和相关说明。帖子还提到目前未能实现扬声器分段功能,未来可能会添加回来。

讨论焦点与观点分析: 有人询问新版本在导出功能中是否输出 SRT 文件,因为这对视频编辑很有用。有人对软件的作用表示不理解,得到解释称这是 Whisper 模型的前端,用于将音频转换为文本。有人表示愿意为项目贡献力量,项目作者表示欢迎。有人分享个人经历,称曾从事相关工作。 有人指出 Whisper.cpp 是 C++实现,速度更快,摆脱了很多依赖,能为多种 GPU 提供加速,且相比 Python 版本性能大幅提升。也有人质疑并非是 Pytorch 导致的速度慢,而是 Python 本身慢。还有人分享使用其他版本的经历,认为该版本不够完善,建议切换到更快的版本,并列举了其优势。 争议点在于新版本的性能提升是否真的如此显著,以及与其他类似工具的比较。共识在于大家对软件的改进和性能提升都较为关注。特别有见地的观点是关于不同语言和实现方式对性能的影响,丰富了对软件优化的理解。

总之,SoftWhisper 的更新引发了广泛而深入的讨论,大家对其性能、功能和未来发展充满期待。