原贴链接

这个名为[csm - multi](https://github.com/zenforic/csm - multi)的仓库，允许多次生成音频而不必每次都重新加载模型（因为相当多的实现都需要重新运行脚本）。我对两个不同的脚本做了不少编辑来实现这一点，所以非常感谢原作者，原始来源在仓库的自述文件中有链接。它还允许可选的可定义的多说话者生成，并组合成一个单一的音频文件（拆分版本也会单独保存）。最后，可以添加参考音频（带有字幕，即使用whisper）以始终锁定一个说话者。这在Linux上应该相对容易运行，但Sesame在Windows上要困难得多。要点是，使用triton - windows 3.1而不是3.2（这也意味着需要MSVC和cuda工具包），安装python 3.10，安装bitsandbytes cuda，可选地将torch升级到2.6.0（在安装需求之后，因为silentcipher将尝试安装2.4，更改2.4的需求不会造成破坏），如果使用默认的hugging face下载，确保您有权访问sesame的csm1b和meta的meta - llama - 3.2，并使用huggingface - cli login登录并使用访问令牌。

讨论总结

原帖介绍了csm - multi仓库在音频生成方面的改进，包括节省时间、多扬声器功能等。评论者主要围绕这个仓库展开讨论，有询问性能提升情况的，有分享自己版本的，还有表达感谢并询问colab版本的，也有提出程序无声这类技术问题的，整体氛围比较和谐，是一个信息交流和问题探讨的过程。

主要观点

👍 询问特定仓库是否有性能提升。
- 支持理由：关心仓库改进是否体现在性能上。
- 反对声音：无。
👍 肯定在性能上有提升，解释了节省时间之处。
- 正方观点：技术上有提升，每次输入提示无需重新加载模型从而节省约30秒到1分钟时间。
- 反方观点：无。
🔥 分享自己有性能改进的变体版本。
- 正方观点：有批量处理等功能且在生成函数上有性能改进。
- 反方观点：无。
💡 表示可能不再继续优化自己的版本。
- 解释：不确定是否继续投入精力优化。
💡 提到如果继续优化会切换模型。
- 解释：有继续优化的思考方向。

金句与有趣评论

“😂 Hi, did you achieve any improvement in performance by doing so?”
- 亮点：直接提问性能提升问题，开启话题。
“🤔 Hi, technically yes, removing the overhead from reloading the models every time one wants to put a prompt in saves about 30 seconds to a minute or so of time per prompt.”
- 亮点：明确回答性能提升并具体解释节省时间之处。
“👀 If you want check out my variant, I have batch processing which you can probably lift.”
- 亮点：分享自己的版本及功能。

情感分析

总体情感倾向是积极的，大家主要是交流和探讨相关技术问题，没有明显的分歧点。原帖分享新仓库改进成果，评论者积极互动提问或者分享自己的成果，氛围比较和谐。

趋势与预测

新兴话题：可能会出现更多关于模型优化方向和如何解决程序无声问题的讨论。
潜在影响：如果模型优化方向确定，可能会对相关音频生成技术的发展有推动作用；解决程序无声问题会提升用户体验。

详细内容：

标题：关于改进 Sesame-CSM 仓库的热门讨论

在 Reddit 上，有一个引起广泛关注的帖子，标题为“I’ve made a forked Sesame-CSM repo containing some QoL improvements to Sesame.”。该帖子介绍了一个名为csm-multi的仓库，其中包含了对 Sesame 的一些质量生活改进。此帖获得了众多的点赞和大量的评论。

主要讨论方向集中在改进后的性能表现、不同变体的特点、实际应用中的问题等。文章将要探讨的核心问题是这些改进在实际应用中的效果和价值。

讨论焦点与观点分析：有人询问这样的改进是否带来了性能的提升。发帖人表示，技术上确实有提升，每次输入提示时不必重新加载模型，节省了约 30 秒到 1 分钟的时间。有人分享了自己的变体，称有批处理功能，并提供了相关链接https://github.com/jazir555/SesameConverse/。有人提出关于 Gemma 3 12B 版本如何实现实时性的问题，回复称直接用 12B 模型不太可行，切换到 4B 或 7B 则相对简单。还有人询问骨干 LLM 的目的，因为这似乎只是一个语音合成模型。另外，有人提到希望能听到演示，听起来很有前景。有人分享个人经历，称不知道如何防止出现沉默、完全跳过文本剩余部分或在说话前有很长停顿的情况，并指出温度和语音相似度会有影响，希望找到解决办法。

讨论中的共识在于大家都对 Sesame 的改进表现出了浓厚的兴趣，并期待看到更多实际效果和优化。特别有见地的观点如关于模型切换和性能优化的讨论，丰富了整个讨论的深度和广度。

总之，Reddit 上关于 Sesame-CSM 改进的讨论热烈且富有价值，为相关领域的发展提供了多样的思路和见解。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#