原贴链接

image

https://preview.redd.it/8rvhivvqt3gd1.png?width=1792&format=png&auto=webp&s=0bab9ebeb66a126810a44b916f297b6e65d4c554

VRAM要求:约36GB VRAM(使用LLaMA3.1-8b-instruct-fp16),但您可以根据需要更换模型。README中有说明。推荐48GB VRAM,具体取决于您的LLM大小。

VECTOR COMPANION

无论是在玩游戏、看视频还是浏览网页,Axiom和Axis都会就您正在做的事情相互交谈,并直接与您交谈!这个项目的动机是创建不仅一个,而是两个非常逼真、响应迅速且迷人的多模态虚拟伴侣。他们可以看到、听到并谈论屏幕上呈现的任何内容!

他们同时转录音频输出和用户麦克风输入,定期截屏并查看/阅读屏幕上的OCR文本。他们利用这些信息进行对话,能够记住过去的关键事件并定期总结对话历史,使他们能够从您离开的地方继续。

功能

  • 可以定期查看图像,每10秒通过OCR为图像添加标题并阅读文本。
  • 可以实时听到并转录计算机音频(仅限英语,由于基础模型大小Whisper语言限制)。
  • 可以实时听到用户麦克风输入(仅限英语,由于基础模型大小Whisper语言限制)。
  • 语音克隆功能使代理Axiom和Axis能够生成不同的语音输出。

这是我发布的第一个严肃的仓库,所以请告诉我是否遗漏了什么,或者您在安装/配置时遇到问题。这个框架只有少数几个依赖项,但根据您的系统设置可能会有所不同。

讨论总结

本次讨论主要围绕“Vector Companion”多模态AI伴侣项目,该项目由两个AI代理Axiom和Axis组成,支持实时语音交互和图像处理。讨论内容涵盖了项目的硬件需求、功能细节、实际应用和潜在改进。用户对项目的VRAM需求、模型的可替换性、外部API支持以及AI代理的对话频率等提出了疑问和建议。总体上,讨论氛围偏向技术探讨和实用建议,用户对项目的创新性和实用性表示了兴趣和认可。

主要观点

  1. 👍 硬件配置要求高
    • 支持理由:项目需要较高的VRAM,这限制了部分用户的参与。
    • 反对声音:可以通过更换模型来降低VRAM需求,但效果可能有所不同。
  2. 🔥 多模态AI的实用性
    • 正方观点:项目具有潜在的应用价值,如自动化投资决策等。
    • 反方观点:评论者对AI技术的普及和可访问性表示担忧。
  3. 💡 AI代理的对话频率
    • 建议增加一个参数来控制AI代理的对话频率,以避免过于频繁的对话。
  4. 👀 OCR技术的应用
    • 讨论了OCR技术在识别数学公式上的局限性和可能的改进方法。
  5. 🌟 声音样本替换
    • 用户询问如何替换AI代理的声音样本,并得到了其他用户的回复和指导。

金句与有趣评论

  1. “😂 So people just casually browsing and gaming on their 2x4090 setup huh.”
    • 亮点:评论者对项目所需的硬件配置感到惊讶。
  2. “🤔 Going to see how this fairs right now. Is there external api support?”
    • 亮点:用户对项目的实际表现和外部API支持表示好奇。
  3. “👀 I want so badly for everyone to get access to large quantities of vram, or like you say better smaller models.”
    • 亮点:评论者对AI技术的普及和可访问性表示担忧。

情感分析

讨论的总体情感倾向为中性偏积极,用户对项目的创新性和实用性表示了兴趣和认可。主要分歧点在于硬件需求和AI技术的普及性,部分用户认为硬件配置要求过高,而另一部分用户则期待未来有更小、更高效的AI模型发布。

趋势与预测

  • 新兴话题:可能引发后续讨论的新观点包括AI代理的对话频率控制、OCR技术的改进以及声音样本的替换方法。
  • 潜在影响:项目具有潜在的应用价值,如自动化投资决策等,未来可能会有更多用户尝试结合其他项目进行创新应用。