原贴链接

大家好!我刚刚发布了Sesame CSM,这是一个100%本地、免费且具有卓越语音克隆功能的文本转语音工具。无需云处理,无需API密钥,仅在您自己的机器上就能生成纯粹的、高质量的人工智能语音。特性:100%本地运行,无需互联网;免费且开源,无付费墙、无需订阅;卓越的语音克隆功能并内置于用户界面;Gradio UI,有用于轻松播放和控制的时尚界面;支持CUDA、MLX和CPU,可在NVIDIA、苹果硅芯片和常规CPU上工作。查看GitHub:Sesame CSM。希望听到大家的想法,如果您试用了请告诉我。欢迎反馈和贡献!

讨论总结

这是一个围绕Sesame CSM文本转语音工具展开的讨论。有人对工具的运行需求(如VRAM)表示疑惑并推测,有人指出其功能局限。很多人反馈了使用中的问题,像在Windows系统下的运行错误、依赖错误等,也有部分人表达了对工具功能拓展的期望、对功能的询问以及试用的意向,还有人对工具的一些情况(如组件、发布方等)提出疑问,作者则对试用者表示感谢并欢迎大家贡献代码来完善工具。

主要观点

  1. 👍 工具在Windows/Cuda下存在使用问题
    • 支持理由:有用户反馈在Windows/Cuda环境下使用时遇到找不到满足mlx版本要求等错误。
    • 反对声音:无
  2. 🔥 工具功能局限于文本输入音频剪辑输出
    • 正方观点:有用户认为除了输入文本输出音频剪辑外,目前没有太多意义。
    • 反方观点:无
  3. 💡 工具存在依赖错误
    • 解释:有用户指出存在mlx相关的依赖要求冲突情况。
  4. 💡 希望工具能成为ComfyUI节点进行功能拓展
    • 解释:有用户希望该工具能拓展功能,制作成ComfyUI节点。
  5. 💡 工具在正常工作时效果很好,但重新生成时可能出现问题
    • 解释:有用户在Mac M2上体验时表示正常工作很棒,但重新生成时约四分之三的情况会出现如长停顿、语音混乱等问题。

金句与有趣评论

  1. “😂 how much vram do you need?”
    • 亮点:这是对工具运行条件的直接疑问,反映出大家对工具运行资源需求的关注。
  2. “🤔 open - AI基于的API用于sillytavern会不错。”
    • 亮点:提出了对工具功能改进的一种设想,基于Open - AI的API用于其他应用会很不错。
  3. “👀 OP’s entire text body is obvious embarrassing AI slop.”
    • 亮点:表达了对原帖内容非常负面的态度,与其他较为理性探讨工具本身的评论形成对比。
  4. “😂 It doesnt work under Windows 11 :-/”
    • 亮点:直接指出工具在Windows 11系统下无法工作,简单明了地反馈问题。
  5. “🤔 Seems promising.”
    • 亮点:表明部分用户对该工具前景看好的态度。

情感分析

总体情感倾向较为复杂,既有积极的方面,如部分用户对工具表示认可、觉得有前景、打算试用;也有消极的方面,如有人认为原帖内容像AI废话,还有用户在使用工具过程中遇到诸多问题而感到失望。主要分歧点在于对工具的评价上,看好的人关注其免费、本地、语音克隆等优势,而遇到问题的人则聚焦于使用中的各种障碍,可能的原因是不同用户的使用场景、设备环境以及对工具的期望不同。

趋势与预测

  • 新兴话题:关于工具是否是第三方产品以及自述文件应明确发布方身份的讨论可能会继续深入,还有工具功能拓展(如成为ComfyUI节点)方面的话题。
  • 潜在影响:如果工具的问题(如Windows下的运行错误、依赖错误等)得到解决,可能会吸引更多用户使用,对本地文本转语音领域有一定的推动作用;若无法解决,可能影响其口碑和进一步推广。

详细内容:

标题:Sesame CSM 引发 Reddit 热议:免费、本地、高质量的语音合成工具

最近,Reddit 上一个关于 Sesame CSM 的帖子引发了众多网友的关注。该帖子介绍了 Sesame CSM 这一 100%本地、免费且具有优质语音克隆功能的文本转语音工具,无需云处理和 API 密钥,可在个人设备上生成高质量语音。此帖获得了大量的点赞和众多评论。

帖子中主要的讨论方向包括对工具所需的 VRAM 量的疑问,例如有人问“需要多少 VRAM”,有回答称“模型本身为 6GB,也许 12GB 就足够”。还有关于与其他技术结合的可能性,比如有人提到“为 sillytavern 提供基于 OpenAI 的 API 会很好”,也有人认为“这只是文本输入到剪辑输出,尝试模型还行但没有更多突破”。

有人分享了相关的代码链接,如https://github.com/phildougherty/sesame_csm_openai。同时,也有不少用户在实际使用中遇到了各种问题,如在 Windows 系统和 CUDA 上出现错误,依赖项错误等。但也有用户表示成功运行,并给出了相应的解决办法。还有用户询问是否有示例,能否做成 ComfyUI 节点,能否读取 PDF、EPUB 等格式,以及对输出质量的评价,有人说“有时很好,有时有长停顿和声音错乱”。

在讨论中,争议点之一是这个工具是否为官方发布。有人指出“这不是在官方 Sesame GitHub 账户上的,也未在其网站上提及,感觉像是第三方的东西”。而共识在于大家对这个工具的功能和潜力表现出了一定的兴趣,希望开发者能进一步完善和解决存在的问题。

总的来说,Sesame CSM 虽然引起了广泛关注和讨论,但在实际应用中仍面临一些挑战和疑问,其未来的发展值得我们持续关注。