我目前处于数据管理/筛选/清理阶段。但我想看看有多少本地人对为动漫角色制作能发出‘有趣’情感声音的语音合成(TTS)感兴趣。已发现的音频事件总数为181218,其中叹息声8594,笑声68590,喘气声14113,呻吟声20576,呜咽声418,呼吸声114,喘气声776等等。
讨论总结
原帖作者分享正在进行动漫角色语音合成(TTS)项目的数据管理、过滤、清理工作,并列出了如叹息、大笑等音频事件的数量,询问有多少人对此感兴趣。评论者从多方面展开讨论,包括项目的多语言特性、成本、数据开放、情感表达、兴趣程度等,既有技术相关的交流,也有轻松调侃和对潜在商业价值的探讨。
主要观点
- 👍 对原帖提到的为动漫角色制作特殊TTS内容很有趣
- 支持理由:原帖内容新奇独特,引发兴趣。
- 反对声音:无。
- 🔥 这个TTS的优点是多语言,但目前以英语为基础进行训练,短期内没有其他语言数据
- 正方观点:多语言可扩大应用范围,是优点。
- 反方观点:目前只有英语数据,限制了多语言应用。
- 💡 数据开放或众包有助于项目发展,但数据分类成本高,难以开放数据
- 解释:数据开放能借助大众力量,但分类成本是阻碍。
- 💡 语音工作需要各类声音的存在以表达激情,避免激情会使语音模型在特定用例下表现不佳
- 解释:声音多样性有助于语音模型表达人类原始情感。
- 💡 非NSFW场景下对TTS也有需求
- 解释:如战斗或桌面游戏等场景需要TTS。
金句与有趣评论
- “😂 Pure_Professional720:Haha wtf, this is interesting.”
- 亮点:简洁表达对原帖内容的兴趣。
- “🤔 MrAlienOverLord:tbh.. multilingual maybe at some point.. english first - as thats what the base was trainied on.. the data wont go anywhere tho.. so if there are better base tts out - that should be fairly easy to transfer over the next months that is”
- 亮点:阐述了TTS多语言实现的现状和可能性。
- “👀 LadyNihila: Read this as "Morpheus Tits" on first glance”
- 亮点:看错标题产生有趣误解,引发后续调侃互动。
- “😂 MrAlienOverLord: eta’s are hard to come by.. data curation and cleaning is a ton of work..”
- 亮点:解释项目预计完成时间难以确定的原因。
- “🤔 TheLastRuby:Super interested - because this is the stuff that makes opensource so awesome.”
- 亮点:表达对项目开源魅力的认可。
情感分析
总体情感倾向是积极的,大多数评论者对原帖提到的动漫角色语音合成项目表现出兴趣、期待或认可。主要分歧点在于项目的一些技术细节,如多语言实现、数据开放等,可能是由于不同评论者的技术背景、需求和关注点不同。
趋势与预测
- 新兴话题:在TTS中添加特定声音(如男性声音)以实现性别平衡,可能会引发更多关于语音多样性的讨论。
- 潜在影响:如果项目成功,可能会对动漫相关的语音合成领域产生影响,催生更多小众项目;也可能影响人们对语音模型中情感表达的重视程度。
详细内容:
标题:关于为动漫角色制作情感声音 TTS 的热门讨论
在 Reddit 上,一则关于为动漫角色制作能发出“有趣”情感声音的 TTS 帖子引发了广泛关注。原帖提到目前处于数据整理、过滤和清洗阶段,并展示了已发现的各类音频事件数量,还提供了相关数据的更新链接。此帖获得了众多评论和讨论。
讨论焦点与观点分析:
有人觉得这个想法很有趣,比如“Pure_Professional720”就表示“哈哈,这太有意思了”。也有人认为这是有意义的,像“Philix”就觉得这可能会成为本地 LLM 体验的重要部分。“MrAlienOverLord”则认为短期内应以英语为主,不同语言的拓展可在之后进行。
有用户分享了个人经历和案例,比如“woctordho_”提供了相关的数据集链接。
对于这个项目,有人持乐观态度并相信作者能做好,如“InnocenceIsBliss”;也有人对声音效果提出看法,认为其声音可能有点烦人,像“MrAlienOverLord”。
关于多语言的问题,“Temp3ror”认为最好是多语言的,但“MrAlienOverLord”强调目前先以英语为主。
在成本方面,“MrAlienOverLord”表示 40k 小时的音频分类通过 11labs 大约需要 16k 美元。
还有各种有趣或引发思考的观点,如“Mahtlahtli”询问是否会加入一些特殊声音。
总体而言,讨论中既有对这个想法的支持和期待,也有对实际操作和效果的担忧和思考。大家在语言选择、声音效果、成本等方面各抒己见,展现了对这个话题的多元看法。
感谢您的耐心阅读!来选个表情,或者留个评论吧!