原贴链接

经过漫长的等待，SoftWhisper（Whisper API的前端）的新版本发布了！最棒的是，不再依赖PyTorch了，现在只需安装和运行。前端的改动很小，但后端改动很大。对PyTorch的依赖让普通用户安装和运行这个程序变得复杂得多，所以我决定移除这种依赖。最初我会使用原版OpenAI AI+ZLUDA，但可惜PyTorch的支持还不够完善。所以我决定使用Whisper.cpp作为后端，事实证明这是个不错的决定：现在我们能在2 - 3分钟内转录2小时的视频。如果使用Windows系统，我已经提供了带有Vulkan支持的Whisper.cpp预构建版本作为后端，所以不需要额外步骤，只需下载SoftWhisper并用python [SoftWhisper.py]运行。不幸的是，我还没有在Linux下测试这个软件。我计划也为Linux提供预构建的静态版本的Whisper.cpp，但与此同时，Linux用户可以自己编译Whisper.cpp并将可执行文件添加到“Whisper.cpp executable”字段。还请注意，在这个版本中我没能让说话者二值化功能正常工作，所以我不得不移除它，将来可能会重新添加。不过考虑到性能的提升，这是个小代价。享受使用吧，有任何问题请告诉我。[原始发布链接：https://www.reddit.com/r/LocalLLaMA/comments/1fvncqc/comment/mh7t4z7/?context=3]

讨论总结

这是一个关于SoftWhisper更新的讨论。用户们从多个方面展开讨论，包括软件功能（如是否支持SRT文件输出、话者分离等）、性能比较（如与其他相关软件或不同版本间的速度对比）、软件依赖（如PyTorch的使用与否）、项目贡献以及对软件更新的疑惑等，整体讨论热度较低，态度较为平和。

主要观点

👍 对SoftWhisper更新感到高兴
- 支持理由：新发布有诸多改进，如不再依赖PyTorch、转录速度快等。
- 反对声音：无
🔥 对SoftWhisper功能不理解
- 正方观点：一些用户不了解SoftWhisper功能，习惯自己的交互方式。
- 反方观点：有用户解释SoftWhisper是Whisper模型前端，可音频转文本。
💡 询问项目是否需要贡献
- 支持理由：自己有相关经验，如话者分离工作，可能有助于项目。
- 反对声音：无
🤔 对SoftWhisper速度提升表示怀疑
- 正方观点：使用者之前用PyTorch速度没那么慢，质疑新软件速度提升程度。
- 反方观点：解释新软件在性能上更优的原因，强调速度提升确实可观。
👀 质疑SoftWhisper的实用性
- 支持理由：自己曾更快完成转录任务，且认为SoftWhisper源代码简陋。
- 反方观点：无

金句与有趣评论

“😂 oh nice! does this output SRT files in the export function?”
- 亮点：直接询问软件功能，体现用户对特定功能的关注。
“🤔 我不太明白它是做什么的。”
- 亮点：反映部分用户对SoftWhisper功能的初始疑惑。
“👀 I did 2 hour transcribes in 1m20s one year ago (March 2024) on RTX 4070 with Whisper - S2T on CTranslate2 backend with Large v2 model.”
- 亮点：通过自身经验数据来质疑SoftWhisper的速度优势。
“😎 do not put.exe or.dll on version control, that is not how you do things.”
- 亮点：从操作规范角度提出对项目的看法。
“💡 它是Whisper模型的前端，并且能将音频转换为文本。”
- 亮点：明确解释了SoftWhisper的功能。

情感分析

总体情感倾向较为中立。主要分歧点在于对SoftWhisper性能和实用性的看法，部分用户看好其更新带来的优势而感到兴奋，部分用户则基于自身经验对其速度、性能等方面提出质疑。可能的原因是不同用户使用的设备、工具及自身的经验不同，导致对SoftWhisper的评价存在差异。

趋势与预测

新兴话题：关于SoftWhisper与其他类似软件（如Whisper XXL、faster - whisper）的对比可能会引发后续讨论。
潜在影响：如果SoftWhisper存在如用户质疑的问题，可能会影响其在相关领域（如音频转录、视频编辑等）的推广和使用。

详细内容：

标题：SoftWhisper 更新——2 小时视频 2 分钟转录

SoftWhisper 最新版本发布，引发了 Reddit 上的热烈讨论。此帖获得了众多关注，评论数众多。原帖主要介绍了新版本的 SoftWhisper 不再依赖 Pytorch，安装和运行变得更加简便，后端改动较大，现在能够在 2 - 3 分钟内转录 2 小时的视频，并提供了详细的安装步骤和相关说明。帖子还提到目前未能实现扬声器分段功能，未来可能会添加回来。

讨论焦点与观点分析：有人询问新版本在导出功能中是否输出 SRT 文件，因为这对视频编辑很有用。有人对软件的作用表示不理解，得到解释称这是 Whisper 模型的前端，用于将音频转换为文本。有人表示愿意为项目贡献力量，项目作者表示欢迎。有人分享个人经历，称曾从事相关工作。有人指出 Whisper.cpp 是 C++实现，速度更快，摆脱了很多依赖，能为多种 GPU 提供加速，且相比 Python 版本性能大幅提升。也有人质疑并非是 Pytorch 导致的速度慢，而是 Python 本身慢。还有人分享使用其他版本的经历，认为该版本不够完善，建议切换到更快的版本，并列举了其优势。争议点在于新版本的性能提升是否真的如此显著，以及与其他类似工具的比较。共识在于大家对软件的改进和性能提升都较为关注。特别有见地的观点是关于不同语言和实现方式对性能的影响，丰富了对软件优化的理解。

总之，SoftWhisper 的更新引发了广泛而深入的讨论，大家对其性能、功能和未来发展充满期待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#