字节跳动在GitHub上发布了MegaTTS3（https://github.com/bytedance/MegaTTS3）。

讨论总结

这个讨论围绕字节跳动新的TTS模型展开。主要聚焦在其宣称的语音克隆功能上，由于安全原因不发布WaveVAE参数导致无法本地语音克隆，引发了大家对字节跳动商业策略的质疑，认为不发布可能是为获取更多语音样本用于训练，同时也指出开发但不发布存在伦理矛盾。此外，还有人对模型特性提出看法，如语言训练种类等，也有对模型使用Apache许可证表示赞同的声音。

主要观点

👍 字节跳动不发布VAE使本地语音克隆无法进行
- 支持理由：VAE参数不发布，本地语音克隆的必要条件缺失。
- 反对声音：无。
🔥 不应宣传语音克隆却不提供关键组件
- 正方观点：宣传与实际提供的服务不符，容易误导用户。
- 反方观点：无。
💡 字节跳动以安全为由不发布语音克隆软件不合理
- 解释：AI语音克隆软件已广泛存在，这个理由难以服众。
💡 字节跳动可能利用免费语音样本克隆声音
- 解释：如果用户提供免费语音样本，字节跳动可能会进行克隆声音等操作。
💡 新的TTS模型应增加训练语言种类，否则意义不大
- 解释：为了模型的全面性和通用性，应覆盖更多语言。

金句与有趣评论

“😂 They don’t release the VAE so local voice cloning is impossible.”
- 亮点：直接指出字节跳动不发布VAE导致本地语音克隆无法实现的关键问题。
“🤔 My main complain is just that they put "Ultra High - Quality Voice Cloning" right at the top, but the info that the vae encoder won’t be available is only visible after you scroll beyond demo and benchmarks… Just don’t advertise voice cloning then.”
- 亮点：揭示了字节跳动在宣传上存在误导用户的嫌疑。
“👀 The "security reasons" does not makes sense.”
- 亮点：直白地表达对字节跳动以安全为由不发布语音克隆软件的质疑。

情感分析

总体情感倾向是质疑和担忧。主要分歧点在于字节跳动不发布WaveVAE参数是真的出于安全考虑还是商业目的。可能的原因是字节跳动在宣传中提到了语音克隆功能，但实际却因为不发布关键参数而无法实现，这让用户对其动机产生怀疑，同时也引发了对伦理方面的担忧。

趋势与预测

新兴话题：可能会引发对字节跳动如何处理语音样本以及是否会真的进行语音克隆的后续讨论。
潜在影响：如果字节跳动不能妥善处理这些质疑，可能会影响其TTS模型的推广和用户信任度，也可能会促使其他公司在类似问题上更加谨慎对待。

详细内容：

标题：字节跳动新推出的 TTS 模型引发争议

近日，字节跳动推出了新的 TTS 模型，其相关内容在 Reddit 上引起了广泛讨论。原帖https://github.com/bytedance/MegaTTS3提到了该模型的一些关键特性，包括“超高质量语音克隆”等，但由于“安全问题”未提供 WaveVAE 的参数，导致无法进行本地语音克隆，此帖获得了众多关注，引发了大量评论。

讨论焦点主要集中在对字节跳动因“安全原因”不提供语音克隆功能的质疑。有人认为，对于安全问题，他们不上传 WaveVAE 的参数，把“超高质量语音克隆”放在显眼位置，而相关信息却在滚动查看演示和基准测试后才能看到，这是不合理的。有人表示：“在这个时候，已经有很多模型发布并提供令人信服的语音克隆支持，以‘安全’为由不提供此功能是愚蠢的。”还有用户说：“我认为人们太当真了。安全是个借口。每个想要使用语音克隆的人提交的数据，他们都可以进一步用于训练。这是一个不可思议的间接盈利策略。”也有人指出：“‘安全’等于‘我们想训练你的声音’。”

同时，也有用户提到当前已经有很多语音克隆工具，字节跳动这样限制功能显得很奇怪。还有人质疑他们到底还需要多少语音样本。有人询问当前语音克隆的参考开放模型是什么，以及新模型与其他模型如奥菲斯相比如何。

在这场讨论中，存在的共识是大家对字节跳动的做法普遍感到不满和质疑。特别有见地的观点如认为安全理由只是借口，实际可能存在其他目的，这丰富了讨论的深度和广度。

总之，关于字节跳动新 TTS 模型因安全原因不提供语音克隆功能的讨论仍在持续，各方观点激烈碰撞，也让人们对相关技术和伦理问题有了更深入的思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#