本周初,我发布了一个新的WebSocket版本的AI语音对语音聊天服务器,用于Hackster/AMD Pervasive AI开发者大赛。该项目在Apache 2.0许可证下开源,我想这里可能有一些人会喜欢它:https://github.com/lhl/voicechat2
除了完全开源、完全本地(使用whisper.cpp、llama.cpp、Coqui TTS或StyleTTS2)并使用WebSockets而不是本地客户端(允许在远程工作站或服务器上运行,通过隧道等流式传输到设备)之外,它还使用Opus编码/解码,并通过文本/语音生成交错来实现极好的响应时间,而无需专门的语音编码/解码模型。
它使用标准推理库/服务器,可以轻松混合和匹配,并且显然它运行在AMD GPU上(也可能运行在其他硬件上),但我想展示一个使用Faster Whisper和distil-large-v2模型在4090上可以实现300-400毫秒的语音到语音延迟的WIP版本:
对于那些想了解更多实现细节的人,这里是我在Hackster上的项目介绍:https://www.hackster.io/lhl/voicechat2-local-ai-voice-chat-4c48f2
讨论总结
本次讨论主要围绕开源项目“voicechat2”,这是一个使用WebSockets技术的本地AI语音聊天服务器。讨论内容涵盖了项目的技术实现、性能优化、不同模型的比较以及对未来技术的展望。参与者对项目的开源性质、本地运行能力以及使用WebSockets进行远程工作站或服务器流式传输表示肯定。同时,讨论中也涉及了模型的优化和潜在的改进方向,如使用Faster Whisper和distil-large-v2模型来降低延迟。总体上,讨论氛围积极,参与者对项目的创新性和实用性表示高度赞赏。
主要观点
- 👍 开源项目“voicechat2”使用WebSockets技术
- 支持理由:项目完全本地化,支持Opus编码/解码,实现快速响应。
- 反对声音:无明显反对声音。
- 🔥 Faster-whisper比常规的whisper快4-5倍
- 正方观点:特别是在短交互中也能减少几百毫秒的延迟。
- 反方观点:无明显反方观点。
- 💡 通过使用VAD、transformers等技术,可以进一步降低延迟
- 解释:这些技术有助于提高模型的推理速度和响应时间。
- 👀 项目支持AMD GPU和其他硬件
- 解释:展示了使用Faster Whisper和distil-large-v2模型在4090上的工作进展。
- 🚀 项目是开源的,使用Apache 2.0许可证
- 解释:支持本地运行,使用WebSocket技术,不依赖本地客户端。
金句与有趣评论
- “😂 This is super cool! Getting closer to the OpenAI advanced voice mode.”
- 亮点:对项目的创新性和实用性表示高度赞赏。
- “🤔 For longer recordings I’ve previously benchmarked faster-whisper to be 4-5X faster than regular whisper.”
- 亮点:强调了Faster Whisper在性能上的显著优势。
- “👀 The future is going to be wild and confusing.”
- 亮点:对未来技术发展的感慨,体现了对技术进步的期待和不确定性。
情感分析
讨论的总体情感倾向积极,参与者对项目的开源性质、本地运行能力以及使用WebSockets进行远程工作站或服务器流式传输表示肯定。主要分歧点在于模型的选择和优化,但整体上讨论氛围友好,参与者对项目的创新性和实用性表示高度赞赏。
趋势与预测
- 新兴话题:未来可能会有更多关于模型优化和性能提升的讨论。
- 潜在影响:该项目可能会推动AI语音聊天技术的发展,特别是在本地运行和低延迟方面。
感谢您的耐心阅读!来选个表情,或者留个评论吧!