原贴链接

本周初,我发布了一个新的WebSocket版本的AI语音对语音聊天服务器,用于Hackster/AMD Pervasive AI开发者大赛。该项目在Apache 2.0许可证下开源,我想这里可能有一些人会喜欢它:https://github.com/lhl/voicechat2

除了完全开源、完全本地(使用whisper.cpp、llama.cpp、Coqui TTS或StyleTTS2)并使用WebSockets而不是本地客户端(允许在远程工作站或服务器上运行,通过隧道等流式传输到设备)之外,它还使用Opus编码/解码,并通过文本/语音生成交错来实现极好的响应时间,而无需专门的语音编码/解码模型。

它使用标准推理库/服务器,可以轻松混合和匹配,并且显然它运行在AMD GPU上(也可能运行在其他硬件上),但我想展示一个使用Faster Whisperdistil-large-v2模型在4090上可以实现300-400毫秒的语音到语音延迟的WIP版本:

hi reddit

对于那些想了解更多实现细节的人,这里是我在Hackster上的项目介绍:https://www.hackster.io/lhl/voicechat2-local-ai-voice-chat-4c48f2

讨论总结

本次讨论主要围绕开源项目“voicechat2”,这是一个使用WebSockets技术的本地AI语音聊天服务器。讨论内容涵盖了项目的技术实现、性能优化、不同模型的比较以及对未来技术的展望。参与者对项目的开源性质、本地运行能力以及使用WebSockets进行远程工作站或服务器流式传输表示肯定。同时,讨论中也涉及了模型的优化和潜在的改进方向,如使用Faster Whisper和distil-large-v2模型来降低延迟。总体上,讨论氛围积极,参与者对项目的创新性和实用性表示高度赞赏。

主要观点

  1. 👍 开源项目“voicechat2”使用WebSockets技术
    • 支持理由:项目完全本地化,支持Opus编码/解码,实现快速响应。
    • 反对声音:无明显反对声音。
  2. 🔥 Faster-whisper比常规的whisper快4-5倍
    • 正方观点:特别是在短交互中也能减少几百毫秒的延迟。
    • 反方观点:无明显反方观点。
  3. 💡 通过使用VAD、transformers等技术,可以进一步降低延迟
    • 解释:这些技术有助于提高模型的推理速度和响应时间。
  4. 👀 项目支持AMD GPU和其他硬件
    • 解释:展示了使用Faster Whisper和distil-large-v2模型在4090上的工作进展。
  5. 🚀 项目是开源的,使用Apache 2.0许可证
    • 解释:支持本地运行,使用WebSocket技术,不依赖本地客户端。

金句与有趣评论

  1. “😂 This is super cool! Getting closer to the OpenAI advanced voice mode.”
    • 亮点:对项目的创新性和实用性表示高度赞赏。
  2. “🤔 For longer recordings I’ve previously benchmarked faster-whisper to be 4-5X faster than regular whisper.”
    • 亮点:强调了Faster Whisper在性能上的显著优势。
  3. “👀 The future is going to be wild and confusing.”
    • 亮点:对未来技术发展的感慨,体现了对技术进步的期待和不确定性。

情感分析

讨论的总体情感倾向积极,参与者对项目的开源性质、本地运行能力以及使用WebSockets进行远程工作站或服务器流式传输表示肯定。主要分歧点在于模型的选择和优化,但整体上讨论氛围友好,参与者对项目的创新性和实用性表示高度赞赏。

趋势与预测

  • 新兴话题:未来可能会有更多关于模型优化和性能提升的讨论。
  • 潜在影响:该项目可能会推动AI语音聊天技术的发展,特别是在本地运行和低延迟方面。