原贴链接

好吧,我已经试过了几乎所有的本地音频模型——MusicGen、AudioCraft、Coqui TTS、NSynth等等。它们听起来都……很糟糕。真的很糟糕。与此同时,Suno听起来就像魔法一样,而我就坐在这里想:他们到底做了什么不同的事情呢?是他们的训练数据吗?还是某种专有的魔法?他们是不是和魔鬼做了交易?不管是什么,本地模型到目前为止都差得让人沮丧。我很想在本地运行的模型中获得哪怕是Suno质量的一小部分。有没有人找到解决办法呢?本地模型还有希望吗,还是我们只能远远地梦想呢?说真的,秘诀是什么呢?如果有人有见解,请分享——我在这里都绝望了。

讨论总结

原帖作者对本地音频模型不满,认为其远不及Suno,希望找到能达到Suno部分质量且能本地运行的方法。评论中有推荐各种项目的,有幽默调侃原帖捐肾说法的,也有对Suno效果好的原因展开关于版权、同意等方面的激烈讨论,总体氛围比较活跃,既有技术交流也有诙谐互动。

主要观点

  1. 👍 原帖作者对本地音频模型不满,Suno效果好
    • 支持理由:原帖作者尝试多种本地音频模型,效果不佳,Suno效果好。
    • 反对声音:无
  2. 🔥 Suno效果好可能与无视版权和同意训练有关
    • 正方观点:The_GSingh认为Suno可能使用任何有音频的数据进行训练。
    • 反方观点:SillyLilBear认为版权与同意不应成为问题,借鉴灵感合法且道德。
  3. 💡 需要特定条件(不在乎版权、资金和人才)来发展好的本地音频模型
    • 有人认为需要特定的环境和资源才能发展出像Suno那样好的本地音频模型。
  4. 💡 本地的音乐生成模型是有希望的
    • RoyalCities提到本地和当前最优(SOTA)的音乐生成器如今是可行的。
  5. 💡 认为很多人倡导窃取音乐的行为是疯狂的
    • rgk069觉得不应该在有大量无版权音乐可用时倡导窃取音乐来发展技术。

金句与有趣评论

  1. “😂 99percentTSOL: Do I get to pick which kidney?”
    • 亮点:以诙谐方式回应原帖捐肾说法,幽默有趣。
  2. “🤔 The_GSingh:The secret sauce is disregarding copyright/consent and training on any and everything with audio.”
    • 亮点:提出Suno效果好的一种大胆猜测,引发众多讨论。
  3. “👀 rgk069:It’s insane that so many of you are advocating for stealing music.”
    • 亮点:表达对倡导窃取音乐行为的震惊,体现出对版权问题的重视。
  4. “😂 StoneCypher: cool. i pick my neighbor’s kidney”
    • 亮点:延续幽默调侃肾脏的话题,邻居割草烦人就想选邻居的肾。
  5. “🤔 RoyalCities: Full local and SOTA music generators is possible today - Suno / udio don’t have some secret sauce. They just pirated all of Spotify and Apple music to do it.”
    • 亮点:对Suno效果好提出不同看法,认为可能是窃取数据。

情感分析

总体情感倾向比较复杂。原帖作者对本地音频模型的情感是失望的。在关于Suno效果好是否与版权有关的讨论中,分歧较大,一方认为可能是无视版权训练的结果,另一方则认为版权不应成为阻碍。在推荐相关项目时情感较为积极。可能的原因是大家对音频模型的发展、现状以及背后的因素有不同的认知和期望。

趋势与预测

  • 新兴话题:不同国家在开源音乐模型发展上的不同走向可能成为后续讨论的话题。
  • 潜在影响:如果关于版权在AI训练中的争议有明确结论,可能会影响到音频模型甚至整个AI领域的发展方向。

详细内容:

标题:为追求优质本地音频模型,不惜“割肾”的热议

在 Reddit 上,一则题为“Would give up a kidney for a local audio model that’s even half as good as Suno”的帖子引发了广泛关注。该帖子作者表示尝试了众多本地音频模型,如 MusicGen、AudioCraft、Coqui TTS、NSynth 等,但效果都不尽人意,而 Suno 却表现出色,令人好奇其成功秘诀。此贴获得了大量点赞和评论,引发了关于本地音频模型发展前景、版权问题以及技术差异等方面的热烈讨论。

讨论焦点与观点分析:

  • 有人推荐了 Kokoro 模型,并分享了对其的认知和使用经历。
  • 关于版权问题,存在多种观点。有人认为其秘诀在于无视版权和未经同意使用各种音频进行训练;也有人指出法院已判定不存在版权侵权,还有人认为这有待法院裁决,且不同地区法律不同。
  • 有用户认为开放权重是应对音乐行业打压的策略。
  • 对于 Suno 模型出色表现的原因,有人认为是对 Spotify 和 Apple Music 内容的盗用,也有人认为是模型质量或训练数据来源等问题。
  • 还有人分享了自己使用相关模型的经历,如使用 Kokoro 进行 TTS,订阅 Udio 后感受等。

在这场讨论中,虽然对于版权问题和技术细节存在诸多争议,但大家普遍关注本地音频模型的发展,并期待有更好的解决方案出现。究竟如何在合法合规的前提下实现本地音频模型的突破,还需进一步探讨和实践。