原贴链接

好吧,我现在讨厌这个标题了。但是……这是个有点特殊的情况。我把老式工业音乐作为爱好,其中一部分是从电影中收集声音样本,这是八九十年代的特色。多年来,我积攒了大量DVD电影并将它们数字化。多亏了能让AI去除人声的最新技术进步,我现在可以从电影中只捕捉到台词,然后我用OpenAI的Whisper将其转录。所以我现在有一个电影台词的大型数据库,但不知道怎么利用它。然后用到了一个Llama 7B聊天模型。我想既然整个模型基于词元跟随其他词元的概率,我应该能够利用这一点找到逻辑上前后衔接的句子。当使用llama - cpp - python(cuda)模块时,可以让它追踪所有词元的概率,所以当我输入两个句子时,我能大概知道它们是否真的匹配。像“我吃了鸡肉。”和“那不是我的车。”这样的短语,相比于以“而且味道很好。”结尾的句子,概率矩阵更低。但一开始这样做不行。我想要从1500多部电影(每部电影大约有1000句台词)中随机找到逻辑上匹配的句子,没人有时间做这个。第二轮,提示:“给定主题‘{插入你想要分类的主题}’,下面的短语是否符合这个主题?‘{插入短语}’,回答是或否。回答:”在我的RTX2070上速度不是超级快,但我大约每0.8秒能得到一个提示。不过,它确实在遍历所有电影并找到与主题匹配的单独台词。概率矩阵也确实有效。我花了一上午给它各种疯狂的主题,它都能搞定。我有超过1500万行文本要处理……如果让它持续运行,将所有行按单个主题分类需要17天,但让Python脚本随机选择电影,当找到前50个时就停止,这完全足够了,而且几个小时就能完成。我不可能为这么大流量的付费API付费,而且即使是7B模型也能毫无问题地完成这个任务。这里精度不是关键。而且我可以构建一个主题数据库,让它在晚上运行来找到符合主题的样本。非常喜欢这个。

讨论总结

原帖作者分享了使用本地Llama 7B聊天模型处理自己收集的大量电影台词数据库的独特用例,包括利用概率寻找逻辑相连的句子等操作。评论者们提出了多种观点,如改进处理方法、推荐其他模型、探讨付费API与本地模型的成本差异、提出新的应用设想等,整体讨论氛围积极且充满技术交流。

主要观点

  1. 👍 可以批量处理句子对数几率以提高效率并减少计算成本
    • 支持理由:只需一次繁重计算,后续是经典计算架构,避免每次用LLMs处理
    • 反对声音:无
  2. 🔥 非精确性的自然语言处理和分类适合当前变换器
    • 正方观点:原帖中的处理方式与当前变换器特性相符
    • 反方观点:无
  3. 💡 可以用相关技术来微调模型并利用数据让LLM表现优于GPT
    • 解释:原帖作者从电影中挖掘的对话数据可用于训练模型
  4. 💡 原帖作者的操作像是构建分类器,基于LLM标记器构建会更直接且速度更快
    • 解释:以原帖利用本地LLM处理电影台词的操作得出结论
  5. 💡 可以使用嵌入方法处理电影台词以更快更便宜地查询主题
    • 解释:将台词转换到向量空间,对比主题向量进行搜索,速度更快成本更低

金句与有趣评论

  1. “😂 你只需进行一次繁重的计算工作,其余就是经典计算架构。”
    • 亮点:提出一种创新的计算思路,简化处理流程。
  2. “🤔 Good fit, this sort of "not mathematically precise" natural language processing and classification is ideal for current transformers.”
    • 亮点:指出原帖做法与当前技术的适配性。
  3. “👀 似乎你一直在挖掘对话数据的金矿,你可以用它来让LLM比GPT的废话讲得更好。”
    • 亮点:幽默地强调原帖数据的价值。
  4. “😂 你也可以使用它来微调模型。”
    • 亮点:简单直接地给出模型改进的建议。
  5. “🤔 Sounds like you are building a classifier.”
    • 亮点:对原帖作者的操作进行简洁概括。

情感分析

总体情感倾向是积极正面的。主要分歧点在于原帖作者不使用付费API是否是因为费用过高,部分评论者对此提出质疑。可能的原因是评论者从不同角度看待成本和效益,有的更注重创新和本地资源利用,而有的则从费用的绝对值考虑觉得付费API也可行。

趋势与预测

  • 新兴话题:将原帖中的系统开发成电影推荐引擎、构建仅用电影台词回应的AI助手。
  • 潜在影响:可能会启发更多关于本地LLM在不同领域(如音乐创作、影视相关)数据处理方面的应用探索,推动相关技术在创意和数据挖掘方面的发展。

详细内容:

标题:Reddit 上关于本地 LLM 独特应用的热门讨论

在 Reddit 上,有一个题为“Finally Found a Use Case for a Local LLM That Couldn’t Be Done Any Other Way”的帖子引起了广泛关注。此贴主要讲述了一位爱好老派工业音乐的用户,如何利用先进技术处理大量电影中的声音样本和台词。该帖子获得了众多点赞和丰富的评论。

讨论的焦点集中在技术实现和优化方法上。有人认为可以将所有句子的对数几率批量处理并存储在关系数据库中,以提高效率;也有人提出疑问,认为对数几率可能依赖于“主题”,需要重新计算。还有人建议使用嵌入将所有行转换为向量空间进行查询,能实现近乎即时的结果。

有用户分享道:“我做过类似的事情,我先用 LLM 生成一系列搜索查询,然后使用搜索 API 和查询结果,再将结果交给下一个 LLM 进行总结。”

不少观点认为这种基于主题的自然语言处理和分类对于当前的转换器来说是理想的。有人好奇是否能让 LLM 基于给定事实创建“旅行计划”。

也有用户提到可以利用这个项目开发成电影推荐引擎。

在这场讨论中,大家各抒己见,有人强调技术创新和优化的可能性,也有人关注实际应用中的成本和效果。但总体来说,大家对这种创造性的 LLM 应用充满了兴趣和期待。