原贴链接

随着FLUX的发布以及其令人惊讶的快速训练能力,我开始对将我的图像数据集从BooruTags转换为自然语言感兴趣。话虽如此,找到自动化这一过程的资源一直很困难。

我之前尝试过Mistral7b,当时我正在用Kolors测试同样的任务,后来得知它被审查了,虽然我大多喜欢它的措辞,但我并不喜欢图像与图像之间以及种子与种子之间在标注长度和质量上的巨大差异。 我也听说过Phi-3-HornyVision,但关于Phi在我想尝试的任务中的有效性,我听到了褒贬不一的报告。 我遇到的唯一其他模型都是为角色扮演聊天开发的,所以我猜它们在这个任务上表现不会很好,但我也愿意接受错误的可能性。

所以我将概述几个要求:

  1. 应该能够在配备3090和32GB RAM的系统上运行
  2. 应该具备分析图像元素的视觉能力
  3. 应该基于系统提示和温度设置相当一致,能够生成客观描述的标注,避免过于冗长或猜测的语言
  4. 应该有能力生成NSFW标注
  5. 应该易于自动化;能够在ComfyUI中运行是理想的,但不是必需的

考虑到所有这些,我有哪些可用的选项,如果有的话? 提前感谢!

讨论总结

本次讨论主要围绕寻找适合处理NSFW图像的视觉语言模型(VLM),特别是用于图像描述生成。用户提到了几个模型,如FLUX、Mistral7b、Phi-3-HornyVision,并列出了一些具体需求,包括运行环境、图像分析能力、生成描述的一致性和客观性、支持NSFW内容以及自动化能力。讨论中涉及了模型的选择、自动化处理、硬件兼容性等多个方面,用户寻求社区的帮助和建议。

主要观点

  1. 👍 FLUX模型的快速训练能力
    • 支持理由:用户对FLUX的快速训练能力感兴趣,但寻找自动化资源困难。
    • 反对声音:自动化资源难以找到。
  2. 🔥 Mistral7b的不一致性
    • 正方观点:用户尝试过Mistral7b,但对其描述长度和质量的不一致性不满意。
    • 反方观点:无明确反对声音,但用户对其效果表示不满。
  3. 💡 Phi-3-HornyVision的效果疑虑
    • 解释:用户了解到Phi-3-HornyVision,但对其效果有疑虑。
  4. 🚀 对模型的具体需求
    • 解释:用户列出了对模型的具体需求,包括运行环境、图像分析能力、描述生成的一致性和客观性、支持NSFW内容以及自动化能力。
  5. 🌟 自动化运行环境
    • 解释:用户对自动化运行环境(如ComfyUI)表示兴趣,但并非必需。

金句与有趣评论

  1. “😂 Try XComposer2!”
    • 亮点:用户推荐尝试XComposer2,可能是解决问题的有效工具。
  2. “🤔 I’ve only tested a small sample and while it doesn’t seem well versed in NSFW it seems to at least try.”
    • 亮点:用户对某个模型的NSFW处理能力表示初步认可。
  3. “👀 VLMs actually suck ass at captioning don’t they? You probably want a captioning model instead.”
    • 亮点:用户指出VLMs在图像描述方面的不足,建议寻找专门的图像描述模型。

情感分析

讨论的总体情感倾向较为积极,用户在寻找解决方案的过程中表现出一定的耐心和开放性。主要分歧点在于对不同模型的效果和适用性的评估,用户希望找到一个既能满足NSFW内容处理需求,又能保证描述一致性和客观性的模型。

趋势与预测

  • 新兴话题:自动化图像描述生成工具的开发和优化。
  • 潜在影响:对NSFW内容处理技术的改进将有助于提升图像描述生成的质量和效率,对相关领域或社会的影响可能包括更广泛的应用场景和更高的用户满意度。