今年夏天Flux和SD3.1的发布让我们大饱眼福。但从那以后还有其他模型发布吗?显然,由于Flux是经过提炼的,所以不能进行严谨的训练,而且社区很不喜欢SD3(或者它可能还有一些我不知道的其他问题)。现在图像模型的发展情况如何呢?
讨论总结
原帖询问是否有新的图像模型发布,大家在评论中提到了Flux的训练情况,如它可以被很好地训练,但也存在一些训练相关的问题。还提到了其他图像模型,像SD3存在许可证不佳的问题,Lumina 2的一些特性包括生成图像所需步骤、提示依从性等,也探讨了模型在成人内容方面的情况,以及对未来模型发展趋势的看法,例如认为专用图像模型可能会成为过去式,整体讨论氛围比较理性,大家各抒己见。
主要观点
- 👍 Flux可以被很好地训练
- 支持理由:有评论指出可以查看Civitai上大量的LoRAs,模型发布几周后就有首次微调,且创建角色的LoRA很容易
- 反对声音:原帖认为Flux不能被认真训练,有人指出原帖可能指的是高质量微调
- 🔥 在满足一定条件前图像模型领域难有惊喜
- 正方观点:目前的图像模型存在如Flux和SD 3.5训练不易且在成人内容方面受限等问题,在出现能做色情内容且达到Flux水平的图像模型前,难有惊喜
- 反方观点:新的图像模型整体质量不错,也有像PixArt这样新的图像模型存在
- 💡 专用图像模型将成为过去
- 解释:随着全能模型(如Llama - 4)的发展,其能力不断扩展,可能会使专用图像模型不再被需要
- 💡 Llama 4将是原生多模态且具代理能力
- 解释:引用相关话语,认为其将解锁很多新的使用场景
- 💡 新的图像模型整体质量不错
- 解释:评论者直接表达了这个观点,但也指出人们更关注NSFW微调模型
金句与有趣评论
- “😂 Flux can be trained very well, just have a look on the huge number of LoRAs at civitai”
- 亮点:直接反驳原帖中Flux不能被认真训练的观点,并给出查看依据
- “🤔 Until we get a model that can do porn and is at the level of Flux, I don’t think we’ll see much exciting in the image model field.”
- 亮点:提出在特定条件满足前图像模型领域缺乏惊喜的独特观点
- “👀 Expecting Janus 7b - pro by Deepseek "a first open source attempt at omni capabilities" to become a trend in future releases - maybe including Llama - 4 as per Zuckerberg’s words.”
- 亮点:对未来模型发布趋势做出预测并提及Llama - 4
- “😉 Think dedicated image models are going to be a thing of the past.”
- 亮点:提出专用图像模型可能成为过去式的前瞻性观点
- “🙄 SD3 has a bad license, that’s the major issue.”
- 亮点:简洁指出SD3存在的主要问题
情感分析
总体情感倾向为中性,大家主要是理性地讨论图像模型相关话题。主要分歧点在于对图像模型发展现状和未来趋势的看法,例如是否在近期会有令人惊喜的图像模型出现,以及专用图像模型是否会被淘汰等。可能的原因是大家关注的重点和对模型发展的期望不同,有的更关注成人内容相关的模型发展,有的则关注模型的多模态等其他特性。
趋势与预测
- 新兴话题:像Llama - 4这样的多模态全能模型可能引领未来趋势,以及是否会有满足无审查且优于SDXL的图像模型出现。
- 潜在影响:如果专用图像模型真的成为过去式,将对图像模型相关产业布局产生重大影响,如开发重点可能会更多转向全能模型;而无审查且性能优秀的图像模型出现可能会影响内容创作等领域。
详细内容:
《Reddit 热门讨论:图像模型的现状与未来》
近日,Reddit 上一则关于图像模型的帖子引发了广泛关注,该帖获得了众多点赞和大量评论。帖子主要探讨了在 Flux 和 SD3.1 推出后,近期是否有新的图像模型发布,以及当前图像模型的一些情况。
讨论焦点主要集中在多个方面。有人认为 Flux 可以训练得很好,比如有用户表示“可以看看在 civitai 上大量的 LoRAs”;也有人提到 Flux 难以训练出高质量的微调效果。有人指出目前大家更多在玩 Hunyuan 这个容易训练的未审查视频模型。
有人认为主要问题是 Flux 和 SD 3.5 都不容易训练,在成人内容方面也有局限。比如,有人说“Pony 团队正在进行 Auraflow 调优,预计 2025 年会有进展”。还有人期待 Janus 7b - pro 成为未来趋势,认为 Llama 4 会是原生多模态,将带来新的使用场景,可能会使专用图像模型成为过去。但也有人担心像这种多模态模型无法在本地运行。
有人提到即将推出的 WanX 2.1 是开放权重的,但也有人指出这是视频模型而非图像模型。Lumina 2 已推出,虽有可微调等优点,但生成好图像所需步骤较多。
也有观点认为新模型虽好,但人们似乎更关心未审查的 NSFW 微调。有人说“性相关内容是经济驱动因素,至少从 VHS 时代就是如此”。
总之,当前图像模型领域的发展充满了不确定性和期待,未来究竟会如何,还需拭目以待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!