原贴链接

我已经受够了坐在电脑前想做一件事，却做了别的事。我正在构建Attend，这样我们的设备就能帮助我们把时间和注意力集中在对我们重要的事情上，而不是一些算法优化的目标上。目前，它是一个语音助手，使用视觉大语言模型（LLM）来“观察”你的屏幕，如果你的行为与你所说的想要做的事情不一致，它会帮助你回到正轨。我需要在工作流程和提示方面做一些工作来减少误报，但它已经“可以工作”了，我对此非常兴奋！我想把它在一块3090显卡上运行，但两块似乎也很可行。大多数开源权重的视觉语言模型在处理4K图像/截图时表现很差，这是部分问题所在。Qwen2 - VL似乎是个例外，但在驱动Attend背后的工作流程时（尤其是7B版本）表现很差。所以，在让它工作的过程中，我一直在使用8位的Qwen2 - VL - 7B - Instruct和Llama - 3.3。我很想听听减少显存（VRAM）使用的建议（Intern2_5 - VL似乎也能很好地处理4K，但我还没有在工作流程中对它进行足够的测试）。Attend使用与OpenAI兼容的API调用与所有模型交互。所以，如果你喜欢的话，应该可以使用云服务……你也可以采用混合方法。我认为你可以将语音转文本（STT）和视觉大语言模型放入16GB显存并在本地运行。Piper TTS在CPU上运行良好。然后，你可以仅为文本大语言模型使用云模型，并将最敏感的内容（截图！）保存在本地。查看开源代码https://github.com/hyperfocAIs/Attend/和概念验证视频https://youtu.be/PETrY540zMM。编辑：修正了拼写错误，明确该项目是开源的。

讨论总结

这是关于Attend项目的讨论，Attend是一个语音助手项目，旨在帮助用户专注于自己设定的目标。评论者们表达了对项目的喜爱，对项目中的视觉模型、工作流程、4K截图处理等技术方面进行了探讨，还涉及项目功能类比、试用体验、项目推荐等内容，整体氛围积极。

主要观点

👍 喜爱项目的想法
- 支持理由：项目具有创新性和实用性，能帮助用户专注于目标。
- 反对声音：无。
🔥 Attend可根据用户需求设计，适用于多种场景
- 正方观点：它可以根据用户设定，在工作、娱乐等场景发挥监督功能，防止分心。
- 反方观点：无。
💡 对8B模型驱动工作流程能力存疑
- 解释：不确定其能否良好驱动项目中的工作流程。
🤔 目前Attend还在早期完善阶段，试用效果不好可再尝试
- 解释：项目目前不够完善，若试用效果不佳可以过几周再试。
😎 项目的关键在于被动监控用户活动并及时干预
- 解释：区别于等待用户求助的方式，被动监控更符合项目目的。

金句与有趣评论

“😂 Love the idea; might’ve missed it in the post but miniCPM’s latest version is my default vision model for local”
- 亮点：表达对项目的喜爱并分享自己使用的默认视觉模型。
“🤔 fatihmtlm：So its like my mama checking me to see if I’m doing my homework and not playing games..”
- 亮点：用形象的类比描述Attend的监督功能。
“👀 这看起来很棒！”
- 亮点：简洁地表达对项目的肯定。
“😏 我不明白等待你寻求帮助到底有什么用。”
- 亮点：强调项目被动监控的重要性。
“🤓 My screen is 4K and life’s better with more screen real estate. If possible I’d rather not downgrade my resolution.”
- 亮点：解释自己使用4K截图的原因。

情感分析

总体情感倾向是积极的，大部分评论者对Attend项目表示喜爱和期待。主要分歧点在于技术方面，如8B模型驱动工作流程的能力、4K截图的处理方式等，这是由于项目处于开发阶段，技术细节还需完善导致的。

趋势与预测

新兴话题：利用Screenpipe包装器实现类似功能的方式可能会引发更多讨论。
潜在影响：如果项目成功，可能会对提高用户专注力、时间管理等方面产生积极影响。

详细内容：

标题：创新应用 Attend 引发的 Reddit 热议

在 Reddit 上，有一篇关于创新应用 Attend 的热门讨论。该应用旨在帮助我们专注于重要事务，而不是被算法引导。帖子获得了众多关注，引发了热烈讨论。

原帖作者表示，Attend 是一个能利用视觉语言模型“监视”屏幕的语音助手，在工作流程和提示方面还需优化以减少误判。目前使用了 Qwen2-VL-7B-Instruct 和 Llama-3.3 等模型，希望能降低 VRAM 需求。作者还提供了开源代码和概念视频的链接。

讨论焦点集中在多个方面。有人喜欢这个想法，提到迷你 CPM 的最新版本是其默认的本地视觉模型。有人对 8B 模型能否良好驱动工作流程表示怀疑，不确定某些模型在处理 4K 截图时的效果，以及如何处理语音到语音的工作流程，并且询问是否有相关的好指南。有人质疑为何要使用 4K 截图而非降低分辨率，作者回应称自己的屏幕是 4K，不想降低分辨率，且尝试过的大多数开放权重视觉模型在处理 4K 输入时效果不佳。有人建议可以尝试 screenpipe 并给出了具体的思路。还有人探讨了如何确定感兴趣区域以及使用 YOLO 微调等。

有用户分享道：“就像我妈妈监督我有没有做作业而不是玩游戏。”还有用户表示：“对呀，但这也得是你要求她这么做之后。” 有人认为这在工作中可能更有帮助，作者则表示不仅在工作中，在休闲时间也有用。

这场讨论展现了大家对 Attend 应用的期待和担忧，也为其未来的发展提供了多种思路。但 Attend 能否真正满足大家的需求，在降低资源需求和提高准确性方面取得突破，还有待观察。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#