原贴链接

这是我目前听过的最疯狂的语音演示之一,他们似乎想在未来以Apache - 2.0许可证发布模型:我从未听说过芝麻(Sesame),他们看起来是个新公司。我们的模型将以Apache 2.0许可证提供。你们怎么想?先看看演示:[https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo]。还没有公开权重,我们只能梦想和期待,但这个(模型)轻松匹配或超越OpenAI的高级语音模式。

讨论总结

这个讨论围绕Sesame实时对话音频模型展开。多数参与者对该模型的语音演示效果表示赞赏,认为其能够与OpenAI的高级语音模式相媲美甚至超越,许多人期待模型开源或者能在本地进行试用。也有部分人指出模型存在的一些问题,如语言切换、对基本输入反应过度、回答过慢等。整体氛围积极向上,大家对这个新出现的语音模型充满兴趣和期待。

主要观点

  1. 👍 模型演示效果很棒
    • 支持理由:很多评论者直接表达惊叹,如“Amazing demo!”“Damn that is good.”,并且与OpenAI的语音模式对比后认为更好。
    • 反对声音:无。
  2. 🔥 希望模型开源或尽快发布权重
    • 正方观点:认为开源会是一件很棒的事情,如果发布权重将会让Sesame成为传奇。
    • 反方观点:无。
  3. 💡 模型存在一些问题
    • 解释:如语言切换功能存在问题、对基本输入反应过度、回答过慢或不理解时会终止对话等。

金句与有趣评论

  1. “😂 Damn that is good.”
    • 亮点:简洁地表达了对模型的正面评价。
  2. “🤔 It’s easy to know it’s an AI because it doesn’t know how and when to stay silent, and it doesn’t know it can’t speak a foreign language.”
    • 亮点:指出了模型作为AI存在的明显问题。
  3. “👀 这才是高级语音模式应该有的样子。”
    • 亮点:表明模型符合对高级语音模式的预期。

情感分析

总体情感倾向为正面,大多数评论者对Sesame的语音演示给予积极评价,惊叹于其效果。主要分歧点在于对模型存在的问题的看法,部分评论者指出模型存在如容易被识别为AI、存在语言切换问题等不足,但这并不影响整体的积极氛围,可能是因为大家对新模型有较高的包容性,且对其未来发展充满期待。

趋势与预测

  • 新兴话题:模型与语音克隆技术相结合、在ebook2audiobook中的应用等。
  • 潜在影响:如果模型发展良好,可能会在语音交互领域带来新的竞争,推动语音技术的进一步发展,也可能会影响相关应用如语音聊天、语音转换等的用户体验。

详细内容:

标题:Sesame 推出惊艳的实时对话音频模型,引发 Reddit 热议

近日,Reddit 上一则关于 Sesame 实时对话音频模型的帖子引起了广泛关注。这个模型号称能与 OpenAI 相媲美,帖子提到其未来将以 Apache-2.0 许可证发布模型。该帖子获得了众多点赞和大量评论。

主要的讨论方向包括对模型演示效果的称赞、对其开源可能性的期待、对模型功能和局限性的探讨等。文章将要探讨的核心问题是这个模型是否真能如大家所期待的那样出色,以及它的开源之路会如何发展。

讨论焦点与观点分析: 有人称赞道:“这个演示确实太棒了……迫不及待想在本地试用。” 有人好奇:“开源终于在其他模式上迎头赶上了吗?” 有人感叹:“哇,太棒了。希望它能尽快开源。我真的很喜欢和这个模型聊天。” 有用户分享道:“我刚刚和这个(Sesame)进行了 20 分钟的闲聊。我的天呐。它无法检测我声音中的情绪,但这没关系,因为对话仍然感觉很生动。这是因为它使用丰富多彩的语言,会开玩笑并改变情绪。感觉很真实——只是偶尔会有音频瑕疵。我让它在最后总结我们的对话,它能记住每个话题。你也可以挂断电话然后接着上次的话题继续。不过有一个问题是,这个机器人对基本的对话输入过于兴奋。有时如果你回答得太慢或者你不理解某些内容,它基本上会过度补偿并通过假装难过来完全停止对话。这给对话增加了最低限度的技巧要求。你得努力让机器人保持参与。我有时也希望它能说得慢一点,它说得真的很快。而且它还不能检测到任何讽刺,这真的很令人失望。” 有人指出:“是的,当给它一些平凡的输入时,它‘受启发’的反应可能会让人觉得是不真诚的言论,所以有点刺耳,而且当你和它说话时输入缓冲会起作用,所以它会在单词中间停止,这也有点奇怪。他们应该在它说话时允许有一点输入缓冲以实现更流畅和有重叠的对话。” 有人认为:“这个模型很容易让人知道它是个 AI,因为它不知道何时该保持沉默,也不知道自己不会说外语。看起来就像一个假装懂外语的外国人,磕磕绊绊。” 也有人提到:“他们已经提到了这是一个局限性。”

在讨论中,大家对于模型的出色表现有一定共识,都认为其效果令人印象深刻。同时,也指出了一些诸如无法检测情绪、输入缓冲问题、语言切换处理不佳等局限性。一些独特的观点,如对模型在不同情境下的表现分析,丰富了讨论的内容。