原贴链接

我姐姐的丈夫患有多发性硬化症。他全身瘫痪,但能说话,只是声音很轻且有停顿。他经常使用电脑,他的母语不是英语,但英语说得足够好,可以使用Windows内置的语音识别(现在叫语音访问)来控制电脑。如果有人感兴趣的话,这是命令列表:[https://support.microsoft.com/en - us/windows/windows - speech - recognition - commands - 9d25ef36 - 994d - f367 - a81a - a326160128c7](https://support.microsoft.com/en - us/windows/windows - speech - recognition - commands - 9d25ef36 - 994d - f367 - a81a - a326160128c7)。如你所见,这些命令非常基础,有时完成一项任务需要繁琐的微观管理。所以我就在想,如果有一个人工智能代理能够取代这种语音命令解决方案该有多好。想象一下,他不必一个一个查看自己喜欢的新闻页面,而是可以教一个人工智能助手浏览他喜欢的新闻网站并收集带有链接的摘要和标题,甚至可以读新闻给他听。看起来很简单,对吧?但我已经看到了目前技术状况下的一些问题: - 当前的语音控制和代理解决方案看起来相当试验性且脆弱。如果出现问题,他无法调试。 - 人工智能语音模式通常看起来过于急于做出反应,就像我们在GPT中看到的那样。他有时需要停顿一下深呼吸。而且他的英语不是很流利,说长句子时可能会出错。所以,人工智能助手应该“更有耐心”,并且在理解命令后重复一遍,只有当用户说“是”批准后才继续。而且,应该可以通过说“停止!”立即中止正在进行的任务链。人工智能在最终确定某个动作之前也应该请求批准。例如,如果他说:“在我的Facebook动态上分享这个视频”,人工智能应该准备好帖子,但在点击“分享”之前停止并请求最终批准。 - 语言。他的母语是拉脱维亚语,只有最大型的大型语言模型才对其有较好支持,而且仅在文本模式下。虽然他能用英语说出命令,但他访问的网站内容是拉脱维亚语。所以,这就排除了完全本地的小型多模态模型,除非它们可以很容易地针对特定语言进行微调(至少要能理解文本并使用拉脱维亚语的文本到语音转换)。 - 记忆。目前的大型语言模型没有记忆功能,每个会话都是全新开始。作为一种变通方法,我们可以发明某种自动化提示,比如“当我说 - 给我新闻 - 你应该收集以下网站(随后是网站列表)的摘要”。但解决方案应该对用户友好,这样他就可以自己口述新命令添加到提示中以便以后重复使用。那么,实现这样的事情我们最大的希望是什么?明年有可能实现吗?现在有没有什么可靠的东西我们可以尝试呢?

讨论总结

原帖以瘫痪患者使用语音控制电脑为例,探讨距离拥有真正的语音控制计算机个人助手还有多远,提出当前存在的一些问题。评论者从不同角度进行讨论,有人认为距离实现还很遥远,也有人认为已经比较接近,并且提出了各种技术方案、面临的挑战以及相关项目进展等内容,整体氛围较为积极,大家都在积极探索如何实现这样的个人助手。

主要观点

  1. 👍 距离拥有真正的语音控制计算机个人助手还很遥远
    • 支持理由:LLMs与本地功能整合不佳,多轮推理易产生中间结果幻觉,没有LLMs能持续逐步执行任务不产生虚构结果等。
    • 反对声音:有评论者认为距离并不遥远,如有人提到自己的项目已实现部分功能。
  2. 🔥 现在就可以构建满足需求的应用
    • 正方观点:可做一个以聊天机器人为基础且具备长短时记忆的本地应用,采用Whisper等技术。
    • 反方观点:无明显反对声音,但有人强调要达到可靠还需很多投入。
  3. 💡 商业和自制的语音助手方案接近实现,可能不到一年
    • 解释:已有能够进行多种操作的代理,只需创建标准化接口命令层即可。

金句与有趣评论

  1. “😂 Far. The consistent integration between LLMs and local functions is weak at best.”
    • 亮点:直接指出大型语言模型与本地功能整合方面的薄弱,反映出技术现状对实现语音助手的阻碍。
  2. “🤔 我正在做这件事呢!”
    • 亮点:简洁表达自己正在从事相关工作,给人一种积极参与到语音助手创建工作中的感觉。
  3. “👀 有人现在就可以花时间为他构建这个(应用)。”
    • 亮点:针对患者的需求提出当下就可构建解决方案的积极态度。

情感分析

总体情感倾向是积极向上的。主要分歧点在于距离实现真正的语音控制电脑个人助手的远近。可能的原因是大家基于不同的技术经验、对现有技术发展的理解以及对未来技术发展速度的预估有所不同。

趋势与预测

  • 新兴话题:多模态模型再发展一代可能会让相关代理真正有用,2025年Agents和RAG将有很大发展。
  • 潜在影响:如果语音控制电脑的个人助手得以完善实现,对瘫痪患者等行动不便人群将有很大帮助,在医疗辅助领域产生积极影响,也会推动计算机交互技术向更便捷、智能的方向发展。

详细内容:

标题:语音控制电脑的真正个人助手还有多远?

在 Reddit 上,一篇关于语音控制电脑的真正个人助手的讨论引发了众多关注。该帖子主要探讨了一位因多发性硬化症而瘫痪的患者使用电脑语音控制的情况,指出其存在命令基础、操作繁琐等问题,并畅想了理想中更智能的 AI 助手,同时也分析了当前技术面临的一些挑战。此帖获得了大量点赞和评论。

讨论的焦点主要集中在以下几个方面: 有人认为目前大语言模型(LLM)与本地功能的整合还很薄弱,像亚马逊 Alexa 那样更严格的语法和自然语言处理可能是更可靠的解决方案。也有人表示,只要在函数调用时停止生成,执行后再继续,就能解决部分问题。还有人提到可以使用停止序列,对于需要可靠性和标准化输出的流程,应使用受限生成,并将常规代码用于其他部分。

有人分享了自己的相关项目,如 [Nuckyduck] 正在制作能从用户医疗数据中学习并构建内容的聊天机器人,并提供了相关链接。[swagonflyyyy] 则介绍了自己创建的 [Vector Companion],并阐述了其发展步骤。

关于实现理想的语音助手,大家观点不一。有人认为距离实现还很遥远,系统集成是最大障碍;也有人觉得已经很接近,比如在网页浏览器应用方面就很可行。

当前,虽然各个组件已经存在,但可靠性和整合性仍是主要问题。不过,随着技术的发展,相信在不久的将来,我们能看到更完善、更实用的语音控制电脑的个人助手出现。

那么,未来究竟何时能实现这一目标?我们又该如何克服当前的技术难题?这些都值得我们持续关注和思考。