VRAM要求:约36GB VRAM(使用LLaMA3.1-8b-instruct-fp16),但您可以根据需要更换模型。README中有说明。推荐48GB VRAM,具体取决于您的LLM大小。
VECTOR COMPANION
无论是在玩游戏、看视频还是浏览网页,Axiom和Axis都会就您正在做的事情相互交谈,并直接与您交谈!这个项目的动机是创建不仅一个,而是两个非常逼真、响应迅速且迷人的多模态虚拟伴侣。他们可以看到、听到并谈论屏幕上呈现的任何内容!
他们同时转录音频输出和用户麦克风输入,定期截屏并查看/阅读屏幕上的OCR文本。他们利用这些信息进行对话,能够记住过去的关键事件并定期总结对话历史,使他们能够从您离开的地方继续。
功能
- 可以定期查看图像,每10秒通过OCR为图像添加标题并阅读文本。
- 可以实时听到并转录计算机音频(仅限英语,由于基础模型大小Whisper语言限制)。
- 可以实时听到用户麦克风输入(仅限英语,由于基础模型大小Whisper语言限制)。
- 语音克隆功能使代理Axiom和Axis能够生成不同的语音输出。
这是我发布的第一个严肃的仓库,所以请告诉我是否遗漏了什么,或者您在安装/配置时遇到问题。这个框架只有少数几个依赖项,但根据您的系统设置可能会有所不同。
讨论总结
本次讨论主要围绕“Vector Companion”多模态AI伴侣项目,该项目由两个AI代理Axiom和Axis组成,支持实时语音交互和图像处理。讨论内容涵盖了项目的硬件需求、功能细节、实际应用和潜在改进。用户对项目的VRAM需求、模型的可替换性、外部API支持以及AI代理的对话频率等提出了疑问和建议。总体上,讨论氛围偏向技术探讨和实用建议,用户对项目的创新性和实用性表示了兴趣和认可。
主要观点
- 👍 硬件配置要求高
- 支持理由:项目需要较高的VRAM,这限制了部分用户的参与。
- 反对声音:可以通过更换模型来降低VRAM需求,但效果可能有所不同。
- 🔥 多模态AI的实用性
- 正方观点:项目具有潜在的应用价值,如自动化投资决策等。
- 反方观点:评论者对AI技术的普及和可访问性表示担忧。
- 💡 AI代理的对话频率
- 建议增加一个参数来控制AI代理的对话频率,以避免过于频繁的对话。
- 👀 OCR技术的应用
- 讨论了OCR技术在识别数学公式上的局限性和可能的改进方法。
- 🌟 声音样本替换
- 用户询问如何替换AI代理的声音样本,并得到了其他用户的回复和指导。
金句与有趣评论
- “😂 So people just casually browsing and gaming on their 2x4090 setup huh.”
- 亮点:评论者对项目所需的硬件配置感到惊讶。
- “🤔 Going to see how this fairs right now. Is there external api support?”
- 亮点:用户对项目的实际表现和外部API支持表示好奇。
- “👀 I want so badly for everyone to get access to large quantities of vram, or like you say better smaller models.”
- 亮点:评论者对AI技术的普及和可访问性表示担忧。
情感分析
讨论的总体情感倾向为中性偏积极,用户对项目的创新性和实用性表示了兴趣和认可。主要分歧点在于硬件需求和AI技术的普及性,部分用户认为硬件配置要求过高,而另一部分用户则期待未来有更小、更高效的AI模型发布。
趋势与预测
- 新兴话题:可能引发后续讨论的新观点包括AI代理的对话频率控制、OCR技术的改进以及声音样本的替换方法。
- 潜在影响:项目具有潜在的应用价值,如自动化投资决策等,未来可能会有更多用户尝试结合其他项目进行创新应用。
感谢您的耐心阅读!来选个表情,或者留个评论吧!