原贴链接

大家好，我很兴奋地分享一个我一直在开发的项目：SoftWhisper，这是一个使用强大的Whisper AI模型进行音频和视频转录的桌面应用。

在受够了WebGPU界面后，我决定创建这个项目；虽然它易于使用，但我遇到了一个bug，模型永远加载不完，根本无法工作。好处是，这个界面实际上有更多功能！

首先，它是用Python和Tkinter构建的，旨在使转录尽可能简单和易于访问。

SoftWhisper的亮点：

超易使用： 我非常注重创建直观的界面。即使你不擅长使用电脑，也能快速上手。选择文件，设置参数，点击开始！
内置媒体播放器： 你可以直接在应用中播放、暂停和搜索音频/视频，方便检查是否选择了正确的文件或复查转录内容。
说话人识别（需Hugging Face API）： 如果你拥有Hugging Face API令牌，SoftWhisper甚至可以识别和标记对话中的不同说话人！
SRT字幕生成： 需要视频字幕？SoftWhisper可以为你生成SRT文件。
处理长文件： 它能高效处理长音频/视频，通过将其分解为更小的片段。

目前，代码尚未针对任何特定GPU优化。我肯定希望在将来解决这个问题，以加快转录速度，特别是对于大文件。我的编程技能还在提升中，如果有任何人在Python中优化GPU方面有经验，我将非常感激任何指导！欢迎贡献代码！

请注意：如果你选择说话人识别，你的HuggingFace密钥将存储在配置文件中。不过，它不会被分享给任何人。请在https://github.com/NullMagic2/SoftWhisper查看。

期待您的反馈！

另外，如果你愿意合作或捐赠支持这个项目，可以私下联系我。我确实需要一些帮助！

讨论总结

帖子介绍了SoftWhisper这款基于Whisper AI的桌面转录应用，强调了其用户友好的界面和多项实用功能，如内置媒体播放器、说话人识别和SRT字幕生成等。评论区的讨论主要围绕以下几个方面展开：

功能优化：用户提出了对实时转录、多音频流处理和自定义模型支持的需求。
界面设计：有用户建议使用基于Web的UI框架以提升用户体验。
安装问题：部分用户遇到了项目文件缺失、依赖项问题和版本冲突等技术障碍。
用户反馈：整体上，用户对应用表示认可，并期待其未来发展，同时感谢开发者的努力。

主要观点

👍 实时转录功能需求
- 支持理由：Zigtronik认为实时转录功能将使SoftWhisper成为“杀手级应用”。
- 反对声音：暂无明确反对，但实现难度较大。
🔥 界面设计改进建议
- 正方观点：cyan2k建议使用Web UI框架，认为Tkinter影响用户体验。
- 反方观点：暂无明确反对，但需考虑开发资源和时间。
💡 自定义模型支持
- Trysem提出增加自定义模型功能，以满足个性化需求。
🛠 安装问题反馈
- Intraluminal指出Tkinter、vlc和pyannote.audio的安装问题，影响用户体验。
🌐 本地与私密运行
- rorowhat关心应用的本地和私密性，Substantial_Swan_144确认主要在本地运行。

金句与有趣评论

“😂 Tkinter sucks colossal dicks.” - cyan2k
- 亮点：幽默且直接地表达了对Tkinter的不满。
“🤔 This would be the killer app for me if it had realtime capture capability.” - Zigtronik
- 亮点：明确指出实时转录功能的重要性。
“👀 So how can run this? I don’t see any projet or requirements files in the repo” - reddit_wisd0m
- 亮点：直击项目文件缺失的问题，引发解决方案的讨论。

情感分析

整体情感倾向积极，用户对SoftWhisper表现出兴趣和认可，但也存在对功能优化和界面设计的期待。主要分歧点在于技术实现难度和用户体验的平衡，部分用户因安装问题表现出一定的挫败感。

趋势与预测

新兴话题：实时转录和自定义模型支持可能成为后续开发重点。
潜在影响：SoftWhisper的优化和改进有望提升其在转录应用市场的竞争力，吸引更多用户。

详细内容：

标题：创新的音频视频转录应用程序 SoftWhisper 引发 Reddit 热议

在 Reddit 上，有一个关于音频视频转录应用程序 SoftWhisper 的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。

帖子作者兴奋地介绍了自己开发的这个项目，称其是在对 WebGPU 接口感到沮丧后创建的。SoftWhisper 基于 Python 和 Tkinter 构建，旨在提供便捷的转录体验。它具有超易用的界面、内置媒体播放器、支持扬声器区分（需 Hugging Face API）、能创建 SRT 字幕、处理长文件等功能。目前代码尚未针对特定 GPU 进行优化，作者希望在未来解决这个问题，并欢迎大家贡献力量。作者还提供了项目的 GitHub 链接：https://github.com/NullMagic2/SoftWhisper ，希望听到大家的反馈，也欢迎合作和捐赠。

讨论焦点与观点分析：

有人提到，如果能有实时捕获功能会更完美，比如在会议开始时点击就能开始转录。作者回复称计划开发单独的实时应用，因为与当前的应用重点不同。

有人询问能否转录视频格式以及处理多音频流视频，作者表示可以转录视频，会自动将其转换为音频，但支持的视频格式可能有限。

有用户指出运行该程序存在一些问题，如 Tkinter 已随 Python 分布安装无法通过 pip 安装，vlc 不是能通过 pip 安装的 Python 包，pyannote.audio 包所需的 pytorch-lightning 特定版本不再可用或与当前 Python 版本不兼容。作者建议安装 python-vlc 和 pytorch-lightning 2.4.0，并提供了新的 requirements.txt。

还有用户建议考虑使用诸如 Gradio 或 Shiny 这样的基于网络的 UI 框架，认为 Tkinter 会给人不好的第一印象，可能导致用户不愿尝试软件。但作者表示 SoftWhisper 是功能全面的前端，除了实时转录外，实现了很多功能。

有人询问能否添加使用自定义模型的功能。

有人关心该程序是否在本地私密运行，作者回复称除了扬声器识别（可选）外，都是在本地私密运行。

总之，SoftWhisper 引发了大家对其功能、界面、运行问题等多方面的讨论，展示了大家对这款应用的关注和期待。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#