原贴链接

https://preview.redd.it/8rvhivvqt3gd1.png?width=1792&format=png&auto=webp&s=0bab9ebeb66a126810a44b916f297b6e65d4c554

VRAM要求：约36GB VRAM（使用LLaMA3.1-8b-instruct-fp16），但您可以根据需要更换模型。README中有说明。推荐48GB VRAM，具体取决于您的LLM大小。

VECTOR COMPANION

无论是在玩游戏、看视频还是浏览网页，Axiom和Axis都会就您正在做的事情相互交谈，并直接与您交谈！这个项目的动机是创建不仅一个，而是两个非常逼真、响应迅速且迷人的多模态虚拟伴侣。他们可以看到、听到并谈论屏幕上呈现的任何内容！

他们同时转录音频输出和用户麦克风输入，定期截屏并查看/阅读屏幕上的OCR文本。他们利用这些信息进行对话，能够记住过去的关键事件并定期总结对话历史，使他们能够从您离开的地方继续。

功能

可以定期查看图像，每10秒通过OCR为图像添加标题并阅读文本。
可以实时听到并转录计算机音频（仅限英语，由于基础模型大小Whisper语言限制）。
可以实时听到用户麦克风输入（仅限英语，由于基础模型大小Whisper语言限制）。
语音克隆功能使代理Axiom和Axis能够生成不同的语音输出。

这是我发布的第一个严肃的仓库，所以请告诉我是否遗漏了什么，或者您在安装/配置时遇到问题。这个框架只有少数几个依赖项，但根据您的系统设置可能会有所不同。

讨论总结

本次讨论主要围绕“Vector Companion”多模态AI伴侣项目，该项目由两个AI代理Axiom和Axis组成，支持实时语音交互和图像处理。讨论内容涵盖了项目的硬件需求、功能细节、实际应用和潜在改进。用户对项目的VRAM需求、模型的可替换性、外部API支持以及AI代理的对话频率等提出了疑问和建议。总体上，讨论氛围偏向技术探讨和实用建议，用户对项目的创新性和实用性表示了兴趣和认可。

主要观点

👍 硬件配置要求高
- 支持理由：项目需要较高的VRAM，这限制了部分用户的参与。
- 反对声音：可以通过更换模型来降低VRAM需求，但效果可能有所不同。
🔥 多模态AI的实用性
- 正方观点：项目具有潜在的应用价值，如自动化投资决策等。
- 反方观点：评论者对AI技术的普及和可访问性表示担忧。
💡 AI代理的对话频率
- 建议增加一个参数来控制AI代理的对话频率，以避免过于频繁的对话。
👀 OCR技术的应用
- 讨论了OCR技术在识别数学公式上的局限性和可能的改进方法。
🌟 声音样本替换
- 用户询问如何替换AI代理的声音样本，并得到了其他用户的回复和指导。

金句与有趣评论

“😂 So people just casually browsing and gaming on their 2x4090 setup huh.”
- 亮点：评论者对项目所需的硬件配置感到惊讶。
“🤔 Going to see how this fairs right now. Is there external api support?”
- 亮点：用户对项目的实际表现和外部API支持表示好奇。
“👀 I want so badly for everyone to get access to large quantities of vram, or like you say better smaller models.”
- 亮点：评论者对AI技术的普及和可访问性表示担忧。

情感分析

讨论的总体情感倾向为中性偏积极，用户对项目的创新性和实用性表示了兴趣和认可。主要分歧点在于硬件需求和AI技术的普及性，部分用户认为硬件配置要求过高，而另一部分用户则期待未来有更小、更高效的AI模型发布。

趋势与预测

新兴话题：可能引发后续讨论的新观点包括AI代理的对话频率控制、OCR技术的改进以及声音样本的替换方法。
潜在影响：项目具有潜在的应用价值，如自动化投资决策等，未来可能会有更多用户尝试结合其他项目进行创新应用。

VECTOR COMPANION#

功能#

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#