嗨,r/LocalLLaMA!我们很高兴分享Salt这个自8月以来一直在做的语音生成项目。下面是关于它的历程、技术细节和开放资源的简要介绍。
开发时间表
- 2024年8月:开始制作原型。
- 8月下旬:第一个可用模型(提示:很粗糙)。
- 最终方案:我们没有采用传统基于变换器的语音合成(TTS),而是用自定义的分词器(用于音频的WavTokenizer)扩展了预训练的大语言模型Llama3 3B,并对其进行端到端的TTS和自动语音识别(ASR)训练。
关键细节
- 训练:约150个A100 GPU小时。
- 架构:类似于“语音版的DALL - E 1”——使用修改后的大语言模型主干进行自回归生成。
- 独特之处:与基于适配器的模型或纯TTS框架不同,Salt在原生处理音频标记的同时利用了大语言模型的能力,并且语音可由提示控制。
当前状态
- 性能:与Mini Omni和Llama Omni等模型相比,具有有竞争力的SIM - O分数(约0.63)(见指标)。
- 未来工作:针对音乐/音频生成进行微调!论文和更新即将推出。
开放资源
- 模型:[Hugging Face](https://huggingface.co/Vikhrmodels/salt - asr_wav - uni_1_tts_wav - uni_1 - 12k)
- 推理演示:[Google Colab](https://colab.research.google.com/drive/1Fbv1 - 4iBKSymgzAF2b1A4aCP9ajI4USL?usp = sharing)
- 完整训练代码:GitHub
- 指标工具包:Aulate
讨论总结
这是一个关于Salt语音生成项目的讨论。其中提到Colab演示代码存在类型错误,包括eos_token_id
的数据类型问题,解决后长句子输出效果不佳。还有人询问模型在Hugging Face上的许可证情况。部分人表达了对该项目方法的喜爱,也有人好奇它与其他项目的比较。整体氛围比较理性,大家从不同角度对项目进行探讨。
主要观点
- 👍 Colab演示代码存在类型错误
- 支持理由:评论者emsiem22指出运行函数时抛出类型错误。
- 反对声音:无。
- 💡 Salt模型在Hugging Face上许可证情况未明确
- 正方观点:MusicTait在平台没看到许可证信息。
- 反方观点:无。
- 🔥 喜爱Salt项目中TTS和ASR结合的方法
- 正方观点:评论者早就想尝试类似事情,多模态LLM在单向任务表现好。
- 反方观点:无。
- 🤔 好奇Salt项目与另一个项目的比较
- 正方观点:cbterry想知道二者差异。
- 反方观点:无。
- 😕 解决类型错误后长句子输出效果不佳
- 支持理由:emsiem22测试结果不好。
- 反对声音:无。
金句与有趣评论
- “😕 emsiem22: Np, I solved this small type issue. Tried with longer sentence and it is pretty bad, unfortunately. Concept sounds promising, though.”
- 亮点:指出虽然解决了类型问题,但长句子输出不理想,不过仍看好项目概念。
- “🤔 MusicTait:what is the licence of the model? i cant see it on HF”
- 亮点:提出了模型许可证这个重要问题。
- “😊 我喜欢这种方法。我已经考虑尝试同样的事情很久了,特别是TTS和ASR结合的部分。”
- 亮点:表达对项目方法的喜爱,尤其是特定部分。
情感分析
总体情感倾向比较中立。主要分歧点在于对项目的评价方面,部分人因为代码错误和长句子输出效果不佳而可能对项目持保留态度,而另一些人则因为其创新的方法和概念而表示喜爱。原因在于大家关注的重点不同,有的关注技术实现的当前状况,有的关注项目的创新性和潜力。
趋势与预测
- 新兴话题:将该方法用于语音克隆和音频编辑可能会引发后续讨论。
- 潜在影响:如果项目能解决现有问题,可能会对语音生成和识别领域产生积极影响,推动相关技术发展。
详细内容:
标题:《Salt:基于 LLMs 的全新语音生成方法引发热烈讨论》
最近,Reddit 上一个关于“Introducing Salt: A New Approach to Speech Generation Built on LLMs (+ Open-Sourced Code!)”的帖子引起了广泛关注。该帖子介绍了 Salt 这一自 8 月以来一直研发的语音生成项目,获得了众多点赞和大量评论。
帖子中详细阐述了 Salt 项目的多个方面。包括从 8 月开始的开发时间线,如 8 月启动原型设计,8 月末有了首个工作模型;关键细节,如约 150 个 A100 GPU 小时的训练时长,采用类似“DALL-E 1 用于语音”的架构等;当前状态,具备有竞争力的 SIM-O 分数,未来还将致力于音乐/音频生成的微调;以及开放的资源,如模型在 Hugging Face 上的链接、Google Colab 上的推理演示等。
讨论焦点与观点分析: 有人指出 Colab 演示代码出现错误,如“TypeError: new(): invalid data type ‘str’”,并详细分析了错误原因和解决办法。 有人询问模型的许可证,得到回答是 Llama3 。 有人对这种方法表示喜爱,认为将 TTS 和 ASR 结合的部分很出色,还提出了关于语音克隆、多模态 LLM 用于音频理解和处理以及音频编辑等方面的思考。
特别有见地的观点是,有人认为多模态 LLM 与音频标记器相结合,通过不同的提示进行训练,是获取通用音频理解和处理能力的强大方式,并且探讨了这种方法在诸如去噪等方面的应用可能性。
在讨论中,大家对于 Salt 项目表现出了浓厚的兴趣和深入的思考,既有对其创新点的肯定,也有对实际应用中可能存在问题的探讨。
通过这次讨论,我们可以看到 Salt 项目为语音生成领域带来了新的思路和可能性,同时也引发了大家对于相关技术发展和应用的进一步期待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!