原贴链接

我知道很多人对Sesame的模型感到失望,我也曾如此。但很多人没意识到这个模型在演示中的核心意义,只要花些精力就能让它在本地快速运行。上面的视频展示了用Sesame的CSM生成的对话,它不仅仅是语音合成(TTS),而是基于语境的TTS。虽然之前也有富有表现力的TTS,但这个是基于语境的。对于Maya这个例子(推测其工作流程:录制、分解语音、添加到音频语境栈、语音识别转录、将文本发送给大语言模型(LLM)、用CSM生成响应),普通TTS相关操作并不新奇,CSM基于语境表达的能力才是亮点。Maya运行的是8B模型,经过微调,可能是针对特定女演员进行微调。这个CSM实际上很不错。另外,对它的恶评是不好的,这种反应会让好人不想开源。技术方面:NVIDIA RTX3060 12GB,参考音频由Hailuo的免费限时TTS生成,脚本由ChatGPT 4.5编写。我划分了参考音频,进行了相关操作,每个生成片段耗时约2分20秒,每行生成约0.3倍实时速度,计划做个界面但不确定耗时。

讨论总结

原帖认为Sesame的CSM虽然不是大家期望的那种可下载运行且具备完整语音到语音表达能力的模型,但它具有一定价值。然而评论中呈现出多种观点,一些人批评Sesame存在营销误导、模型输出差、资源占用多等问题,也有人对其名称提出异议,还有人质疑它相比其他TTS的优势;同时也有部分人赞同原帖观点,认为它有意义,只是在营销方面可能存在问题,还有人进行了技术测试并给出了关于生成结果的评估等。

主要观点

  1. 👍 Sesame的CSM有价值
    • 支持理由:能在语境中表达自身,可用于更多场景,对本地的NotebookLM克隆有很大提升,原帖展示了其生产潜力。
    • 反对声音:很多评论者指出其存在各种问题,如模型输出差、资源占用多等。
  2. 🔥 Sesame存在营销误导
    • 正方观点:模型与宣传不符,营销材料故意模糊、有欺骗性。
    • 反方观点:并非故意欺骗,只是太贴近项目而没考虑大众理解,并且免费发布了技术信息。
  3. 💡 Sesame的CSM相比其他TTS无优势
    • 解释:与Kokoro等相比提升不大,虽然基于Llama 3.2 1B构建有语境感知能力,但整体优势不明显。

金句与有趣评论

  1. “😂 Everytime companies like sesame are called out for their misleading marketing people like you posts this cherry picked examples dude this 1b shit is completely useless.”
    • 亮点:直接表达对Sesame营销手段的不满,认为其拿出的例子是精选的,1B模型没有用。
  2. “🤔 他们需要一个新名字,CSM太接近CSAM了。”
    • 亮点:指出了CSM名称可能带来的负面联想这一独特问题。
  3. “👀 我从未发现比melotts更快的东西,比如能在30秒内生成11分钟的音频,我仍将其用于网络小说。”
    • 亮点:通过对比突出了melotts的速度优势以及在网络小说方面的应用。

情感分析

总体情感倾向存在争议。分歧点主要在于Sesame的CSM是否有价值、是否存在营销欺骗等问题。部分人对其持否定态度,可能是因为模型没有达到他们的预期,如输出质量、速度等方面;而部分人持肯定态度,是看到了其在语境表达和更多场景应用方面的潜力。

趋势与预测

  • 新兴话题:可能会进一步探讨如何优化Sesame的CSM,以及是否会有更多关于模型名称更改的讨论。
  • 潜在影响:如果对Sesame的CSM负面评价持续,可能会影响其推广和在开源工具领域的发展;若正面评价增多,可能会促使更多人使用并改进这个模型。

详细内容:

标题:关于 Sesame 的 CSM 模型的热门讨论

最近,Reddit 上有关 Sesame 的 CSM 模型的讨论引起了广泛关注。原帖(https://reddit.com/link/1jb7a7w/video/qwjbtau6cooe1/player )指出,尽管很多人对 Sesame 模型的实际情况感到失望,但作者认为其核心部分颇具价值。这个帖子获得了大量的点赞和评论,引发了关于该模型的一系列激烈讨论。

讨论的焦点主要集中在模型的性能、实用性以及与其他同类模型的比较。有人(SquashFront1303)认为:“Sesame 这种误导性营销每次都会有像您这样的人为其站台,这个 1B 的玩意完全没用,输出大多是垃圾,像 Kokoro、Melo 等其他 TTS 要好得多,CSM 占用大量内存和计算资源,演示是实时的但实际并非如此。而且没有技术论文和微调,有更高效的替代品能在本地流畅运行,我们该拿这玩意怎么办?”

然而,也有人(CognitiveSourceress)表示:“有时候情况确实如此。但其他时候,有些东西并不明显,人们却很快就群起而攻之。首先,关于挑选示例,是的,我做了。但我披露了挑选的具体情况。我做了 3 次整个场景的运行,其中 2 次完全可用,1 次大部分可用。这是可以接受的。如果您使用 AI 并期望每次第一次尝试都能 100%成功,那您使用 AI 的方式就错了。没有什么能这样工作。而且 Kokoro 和 Melo 在音频质量上可能更稳定,但它们无法做到这个模型能做到的。能够根据上下文恰当地调整语调是一件大事。而且这个模型能够克隆任何声音,这是 Kokoro 做不到的。他们发布了一个好工具,而且是免费的。”

还有人(MustBeSomethingThere)提出:“如果只有 80%的生成结果是好的,那么它就不适合用于聊天机器人,甚至不适合用于 NotebookLM 克隆。”但有人(CognitiveSourceress)回应:“我可能表述不当。所谓的好是指没有立即能识别的缺陷,您能感受到其他模型所缺乏的上下文影响。对于本地应用来说是足够的,对于聊天机器人服务可能还不行。”

讨论中的共识在于,大家都希望模型能更加优化,在速度、性能和实用性方面有所提升。而独特的观点如有人(CognitiveSourceress)认为模型具有上下文理解能力是一个重大突破,尽管目前还存在一些不足,但潜力巨大。

总的来说,关于 Sesame 的 CSM 模型的讨论反映了人们对新技术的期待和担忧,也展现了技术发展过程中的复杂性和挑战。