大家好,我很兴奋地分享一个我一直在开发的项目:SoftWhisper,这是一个使用强大的Whisper AI模型进行音频和视频转录的桌面应用。
在受够了WebGPU界面后,我决定创建这个项目;虽然它易于使用,但我遇到了一个bug,模型永远加载不完,根本无法工作。好处是,这个界面实际上有更多功能!
首先,它是用Python和Tkinter构建的,旨在使转录尽可能简单和易于访问。
SoftWhisper的亮点:
- 超易使用: 我非常注重创建直观的界面。即使你不擅长使用电脑,也能快速上手。选择文件,设置参数,点击开始!
- 内置媒体播放器: 你可以直接在应用中播放、暂停和搜索音频/视频,方便检查是否选择了正确的文件或复查转录内容。
- 说话人识别(需Hugging Face API): 如果你拥有Hugging Face API令牌,SoftWhisper甚至可以识别和标记对话中的不同说话人!
- SRT字幕生成: 需要视频字幕?SoftWhisper可以为你生成SRT文件。
- 处理长文件: 它能高效处理长音频/视频,通过将其分解为更小的片段。
目前,代码尚未针对任何特定GPU优化。我肯定希望在将来解决这个问题,以加快转录速度,特别是对于大文件。我的编程技能还在提升中,如果有任何人在Python中优化GPU方面有经验,我将非常感激任何指导!欢迎贡献代码!
请注意:如果你选择说话人识别,你的HuggingFace密钥将存储在配置文件中。不过,它不会被分享给任何人。请在https://github.com/NullMagic2/SoftWhisper查看。
期待您的反馈!
另外,如果你愿意合作或捐赠支持这个项目,可以私下联系我。我确实需要一些帮助!
讨论总结
帖子介绍了SoftWhisper这款基于Whisper AI的桌面转录应用,强调了其用户友好的界面和多项实用功能,如内置媒体播放器、说话人识别和SRT字幕生成等。评论区的讨论主要围绕以下几个方面展开:
- 功能优化:用户提出了对实时转录、多音频流处理和自定义模型支持的需求。
- 界面设计:有用户建议使用基于Web的UI框架以提升用户体验。
- 安装问题:部分用户遇到了项目文件缺失、依赖项问题和版本冲突等技术障碍。
- 用户反馈:整体上,用户对应用表示认可,并期待其未来发展,同时感谢开发者的努力。
主要观点
- 👍 实时转录功能需求
- 支持理由:Zigtronik认为实时转录功能将使SoftWhisper成为“杀手级应用”。
- 反对声音:暂无明确反对,但实现难度较大。
- 🔥 界面设计改进建议
- 正方观点:cyan2k建议使用Web UI框架,认为Tkinter影响用户体验。
- 反方观点:暂无明确反对,但需考虑开发资源和时间。
- 💡 自定义模型支持
- Trysem提出增加自定义模型功能,以满足个性化需求。
- 🛠 安装问题反馈
- Intraluminal指出Tkinter、vlc和pyannote.audio的安装问题,影响用户体验。
- 🌐 本地与私密运行
- rorowhat关心应用的本地和私密性,Substantial_Swan_144确认主要在本地运行。
金句与有趣评论
- “😂 Tkinter sucks colossal dicks.” - cyan2k
- 亮点:幽默且直接地表达了对Tkinter的不满。
- “🤔 This would be the killer app for me if it had realtime capture capability.” - Zigtronik
- 亮点:明确指出实时转录功能的重要性。
- “👀 So how can run this? I don’t see any projet or requirements files in the repo” - reddit_wisd0m
- 亮点:直击项目文件缺失的问题,引发解决方案的讨论。
情感分析
整体情感倾向积极,用户对SoftWhisper表现出兴趣和认可,但也存在对功能优化和界面设计的期待。主要分歧点在于技术实现难度和用户体验的平衡,部分用户因安装问题表现出一定的挫败感。
趋势与预测
- 新兴话题:实时转录和自定义模型支持可能成为后续开发重点。
- 潜在影响:SoftWhisper的优化和改进有望提升其在转录应用市场的竞争力,吸引更多用户。
详细内容:
标题:创新的音频视频转录应用程序 SoftWhisper 引发 Reddit 热议
在 Reddit 上,有一个关于音频视频转录应用程序 SoftWhisper 的帖子引起了广泛关注。该帖子获得了众多点赞和大量评论。
帖子作者兴奋地介绍了自己开发的这个项目,称其是在对 WebGPU 接口感到沮丧后创建的。SoftWhisper 基于 Python 和 Tkinter 构建,旨在提供便捷的转录体验。它具有超易用的界面、内置媒体播放器、支持扬声器区分(需 Hugging Face API)、能创建 SRT 字幕、处理长文件等功能。目前代码尚未针对特定 GPU 进行优化,作者希望在未来解决这个问题,并欢迎大家贡献力量。作者还提供了项目的 GitHub 链接:https://github.com/NullMagic2/SoftWhisper ,希望听到大家的反馈,也欢迎合作和捐赠。
讨论焦点与观点分析:
有人提到,如果能有实时捕获功能会更完美,比如在会议开始时点击就能开始转录。作者回复称计划开发单独的实时应用,因为与当前的应用重点不同。
有人询问能否转录视频格式以及处理多音频流视频,作者表示可以转录视频,会自动将其转换为音频,但支持的视频格式可能有限。
有用户指出运行该程序存在一些问题,如 Tkinter 已随 Python 分布安装无法通过 pip 安装,vlc 不是能通过 pip 安装的 Python 包,pyannote.audio 包所需的 pytorch-lightning 特定版本不再可用或与当前 Python 版本不兼容。作者建议安装 python-vlc 和 pytorch-lightning 2.4.0,并提供了新的 requirements.txt。
还有用户建议考虑使用诸如 Gradio 或 Shiny 这样的基于网络的 UI 框架,认为 Tkinter 会给人不好的第一印象,可能导致用户不愿尝试软件。但作者表示 SoftWhisper 是功能全面的前端,除了实时转录外,实现了很多功能。
有人询问能否添加使用自定义模型的功能。
有人关心该程序是否在本地私密运行,作者回复称除了扬声器识别(可选)外,都是在本地私密运行。
总之,SoftWhisper 引发了大家对其功能、界面、运行问题等多方面的讨论,展示了大家对这款应用的关注和期待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!