我很高兴分享FanFic - Illustrator,这是一个专门的3B推理模型,它连接了创意写作和AI图像生成。这个模型分析你的故事(原创或同人小说),并为图像生成模型提供精心制作的最佳插画场景提示。
FanFic - Illustrator的特别之处:
- 将叙事文本转换为优化的Danbooru标签用于图像生成(特别针对animagine - xl - 4.0 opt进行了调整);
- 展示其推理过程,让你理解为什么选择某些场景和元素;
- 支持多语言输入(主要是日语,对英语和汉语也有良好处理);
- 通过指定内容类别和提供优先标签集来控制输出类别/倾向;
- 基于Qwen2.5 - 3B - Instruct,仅3B参数,非常轻便;
- 使用Unsloth(GPTO)进行高效强化学习训练。
FanFic - Illustrator在AI创意流程中填补了一个重要空白——Danbooru标签(如“1girl”、“solo”、“looking at viewer”等特殊术语)在开放权重图像生成AI中广泛使用,但新手很难掌握。这个模型为你处理这种复杂性,将自然语言故事转换为有效的提示结构。
我期望这将与创意写作的大型语言模型(LLM)产生强大的协同作用,实现端到端的从故事到插画的工作流程。
模型:[https://huggingface.co/webbigdata/FanFic - Illustrator](https://huggingface.co/webbigdata/FanFic - Illustrator)
gguf模型及示例脚本:[https://huggingface.co/webbigdata/FanFic - Illustrator_gguf](https://huggingface.co/webbigdata/FanFic - Illustrator_gguf)
免费Colab示例:[https://github.com/webbigdata - jp/python_sample/blob/main/FanFic_Illustrator_demo.ipynb](https://github.com/webbigdata - jp/python_sample/blob/main/FanFic_Illustrator_demo.ipynb)
这个首次发布的版本在Apache - 2.0许可证下完全开源。我创建它是因为我认为它在技术上很有趣并且能满足真正的需求。虽然我主要是与社区分享,看看人们如何使用它并收集反馈以进行改进,但我也对人们可能发现的潜在应用感到好奇。如果你在项目或工作流程中发现创新的使用方法,我很想听听。
在开发过程中,我发现像这样的创意文本到插画转换工具缺乏既定的基准,这使得客观评估尤其具有挑战性。为了准确衡量用户体验和输出质量,我们可能需要建立全新的评估标准和测试方法。这个挑战超出了技术问题,因为“好的插画建议”的定义本身就是主观的。社区反馈在克服这些障碍和指导未来改进方面将是非常宝贵的。
谢谢。
讨论总结
[主题是FanFic - Illustrator这个3B推理模型,主要观点包括模型成为comfyui节点很棒、对写作工作流程和角色扮演有用、有改进空间等,总体氛围积极,大家都在积极探讨模型的各种可能性]
主要观点
- 👍 认为模型成为comfyui节点会很棒。
- 支持理由:[未提及]
- 反对声音:[无]
- 🔥 觉得模型对现有写作工作流程和角色扮演有用。
- 正方观点:[未提及]
- 反方观点:[无]
- 💡 认为FanFic - Illustrator模型有改进空间,可提高标记数量以适应长篇故事多场景插画需求。
- 支持理由:[更高标记数量能对长篇故事多场景插画创作]
- 反对声音:[原开发者认为自动拆分长句创作多插画存在困难]
- 🤔 认为FanFic - Illustrator需要构图嵌入。
- 支持理由:[未提及]
- 反对声音:[无]
- 😎 认为FanFic - Illustrator是个好主意。
- 支持理由:[未提及]
- 反对声音:[无]
金句与有趣评论
- “😂 AmeenRoayan: This would be amazing as a comfyui node somehow!”
- 亮点:[表达对模型成为comfyui节点的期待]
- “🤔 dahara111: I thought this model would be useful to incorporate into existing writing workflows and roleplaying.”
- 亮点:[指出模型对写作工作流程和角色扮演的作用]
- “👀 Interesting. A higher token count seems like the most immediate improvement possible, would be nice to illustrate multiple scenes in a long story”
- 亮点:[提出模型改进方向]
- “😎 Sounds like an excellent idea, many thanks.”
- 亮点:[对模型表示认可]
- “🤓 nikkisNM: Sounds interesting, I’ll give it a shot.”
- 亮点:[表达对模型感兴趣并打算尝试]
情感分析
[总体情感倾向积极,主要分歧点在于模型改进方向,如针对长句拆分的处理方式等,原因是不同用户从不同角度考虑模型功能和实现的难易程度]
趋势与预测
- 新兴话题:[模型推广到漫画制作者方面]
- 潜在影响:[如果模型得到推广应用,可能对创意写作、图像生成、漫画制作等领域的工作流程产生积极影响]
详细内容:
《FanFic-Illustrator:激发创意的 3B 推理模型》
近日,Reddit 上一则关于“FanFic-Illustrator”的帖子引起了广泛关注,该帖子获得了众多点赞和大量评论。帖子主要介绍了 FanFic-Illustrator 这一专门的 3B 推理模型,它能够将创意写作与 AI 图像生成相连接。
原帖提到了该模型的诸多特点,如能将叙事文本转换为优化的 Danbooru 标签以用于图像生成,展示推理过程,支持多语言输入,允许控制输出类别和倾向等。同时,还提供了相关模型的链接:https://huggingface.co/webbigdata/FanFic-Illustrator 、https://huggingface.co/webbigdata/FanFic-Illustrator_gguf 、https://github.com/webbigdata-jp/python_sample/blob/main/FanFic_Illustrator_demo.ipynb 。
帖子引发的主要讨论方向包括该模型在现有写作流程和角色扮演中的应用可能性,与现有工具的结合方式,以及如何改进和拓展其功能等。
讨论焦点与观点分析: 有人认为这个模型可以作为 comfyui 节点使用,会非常出色。有人觉得它能够融入现有的写作工作流程,也有人好奇对于熟悉图像生成模型的人是否有用。有人提到可以尝试 comfyui_LLM_party 这个工具。还有人表示自己有一个节点能连接 llama.cpp 后端,并将文本输出用于工作流程。
有人认为更高的 token 计数可能是最直接的改进方向,以用于描绘长故事中的多个场景。但也有人指出自动分割长句子并创建多个插图的方式训练和验证困难,增加内存需求,让用户自行划分可能更简单。
有人认为该模型需要某种组合嵌入、区域提示,并提到了https://github.com/lllyasviel/Omost ,但也有人意识到特殊语法取决于工具,所以决定不使用。
有人觉得这个模型很有趣会尝试使用,也有人认为向漫画制作者推荐可能是个好主意,并询问了关于最优结构、段落和字数的问题,以及它能运行的最低版本的 PyTorch 和 CUDA。回答称当前版本难以兼容漫画等复杂组合,能处理 2000 - 3000 个 token,适用于短篇小说,测试使用的是 torch==2.5.1,但模型本身对 PyTorch 没有特别限制。
讨论中的共识在于大家都对这个模型充满期待,希望它能在创意领域发挥重要作用。一些独特的观点如关于模型与现有工具的整合以及针对不同应用场景的优化建议,丰富了讨论内容。
总的来说,FanFic-Illustrator 模型为创意写作与图像生成的结合带来了新的可能性,但其发展仍面临诸多挑战,需要不断改进和完善。
感谢您的耐心阅读!来选个表情,或者留个评论吧!