原贴链接

好的,我打算全用小写字母来写,因为这个帖子总是被自动审查。就好像本地的llama(羊驼)鼓励低质量的帖子一样,超级烦人。想象一下,如果有一个完全合规的gemma3 vision模型,那不是很好吗?[https://huggingface.co/SicariusSicariiStuff/X - Ray_Alpha]

讨论总结

原帖提到因为自动审核问题只能小写书写,并抱怨本地llama鼓励低质量帖子,设想了完全合规的gemma3 vision模型。评论主要围绕Gemma - 3展开,包括数据获取相关的公司刮取Shotdeck数据用于模型微调,获取数据集的建议,Gemma - 3在指令遵循、图像分析方面的表现,Gemma - 3的审查机制,以及运行推理时的操作指示等内容,整体讨论较为平静,无明显争执。

主要观点

  1. 👍 存在公司刮取Shotdeck数据并用刮取的图像微调模型
    • 支持理由:评论者回忆有这样的公司操作。
    • 反对声音:无。
  2. 👍 建议向制作bigaspv2的人询问数据集
    • 支持理由:他可能有数据集并且在做字幕模型。
    • 反对声音:无。
  3. 👍 Gemma - 3在指令遵循方面表现较好且有特殊知识
    • 支持理由:评论者的观察结果。
    • 反对声音:无。
  4. 👍 Gemma 3审查程度为轻度且可覆盖审查
    • 支持理由:评论者作出此解释。
    • 反对声音:无。
  5. 👍 运行推理需遵循模型卡指示
    • 支持理由:评论者给出的操作建议。
    • 反对声音:无。

金句与有趣评论

  1. “😂 I do recall some company scraping shotdeck before and fine - tuning their model on these images with labels.”
    • 亮点:提及数据获取方面可能存在争议的操作。
  2. “🤔 Since you want datasets maybe ask the guy who made bigaspv2 on civitai I think he’s working on a caption model too and he has a big dataset.”
    • 亮点:提供了获取数据集的有用建议。
  3. “👀 From what I saw initially, Gemma - 3 seems better at instruction following, and that special obscure Gemma knowledge (knowing random sidekicks from unknown series for example).”
    • 亮点:阐述了Gemma - 3在指令遵循和特殊知识方面的优势。
  4. “😎 Gemma 3 is only lightly censored and can be overridden with supplying early assistant output.”
    • 亮点:解释了Gemma 3审查机制的特点。
  5. “🧐 要运行推理,请确保遵循模型卡中的指示。”
    • 亮点:给出了运行推理的操作指示。

情感分析

[讨论的总体情感倾向为中性,无明显分歧点,主要是大家各自分享关于Gemma - 3相关的信息,包括数据、性能、审查等方面,没有互相反驳或者产生较大争议的情况]

趋势与预测

  • 新兴话题:[Gemma - 3性能的进一步挖掘和比较可能会引发后续讨论]
  • 潜在影响:[如果Gemma - 3在更多性能方面表现出色,可能会对相关模型开发和使用领域产生影响]

详细内容:

标题:关于 Gemma3 视觉模型的热门讨论

在 Reddit 上,有一篇关于“Gemma3 视觉”的帖子引起了广泛关注。该帖子作者抱怨因发帖老是被自动审核修改,所以只能全用小写,还称这种情况就好像当地的 llama 鼓励低质量发帖,令人超级烦恼。同时提出,如果有一个完全合规的 Gemma3 视觉模型,那该多好,并附上了相关链接https://huggingface.co/SicariusSicariiStuff/X-Ray\_Alpha。这篇帖子获得了众多的点赞和大量的评论,引发了热烈的讨论。

讨论的焦点主要集中在以下几个方面:

有人提到曾有公司在未获授权的情况下利用一些图像资源来训练模型。比如,有用户说:“我记得有个公司之前未经授权抓取 shotdeck 的内容,然后用带标签的这些图像来微调他们的模型。”

还有用户分享了获取数据集的途径。例如:“既然你想要数据集,也许可以问问在 civitai 上制作 bigaspv2 的人,我觉得他也在做一个字幕模型,并且他有一个大的数据集。或许做小马模型的那个人也行,不过我猜那可能更侧重于卡通/动漫类型的数据集。”

对于 Gemma3 视觉模型的性能,有人认为它在指令遵循和某些特殊知识方面表现出色,比如:“从我的初步观察来看,Gemma-3 似乎在指令遵循方面表现更好,还有那种特殊的冷门 Gemma 知识(比如知道来自不知名系列的随机配角)。而且,它在对图像进行非常详细的分解的同时,在普通 OCR 方面也表现出色。”但也有人表示使用体验不佳:“我在图像方面运气不太好,可能是因为 koboldcpp 的原因。”

此外,关于模型的审查和运行方式也有讨论。有人指出 Gemma 3 审查较宽松,可通过提供早期助理输出来覆盖。同时,为了保证可比性和简便性,有人选择直接使用 transformers 运行模型,并提供了相关的 mmproj 链接。

在这场讨论中,大家对于 Gemma3 视觉模型各抒己见,既有对其优势的肯定,也有对存在问题的探讨,为进一步了解和优化该模型提供了丰富的视角。