原贴链接

这个模型已经过增强,使用了NEO Imatrix数据集。测试表明,推理标记最多减少了50%。该模型也未经过审查(是的,出厂就是如此)。在对比测试中,这个模型推理更流畅,很少迷失方向,输出更强劲。即使在最低量化下,它也表现得非常强劲……IQ2_S可用于推理。最后,这个模型的推理/温度稳定,这意味着你可以提高温度,推理仍然合理。在仓库中有7个示例生成、详细的说明、用于进一步增强生成的额外系统提示以及完整的量化仓库:https://huggingface.co/DavidAU/Reka - Flash - 3 - 21B - Reasoning - Uncensored - MAX - NEO - Imatrix - GGUF。技术说明:这是一个测试用例,用于观察在量化过程中使用哪些增强功能,以及若干不同的Imatrix数据集和增强选项,可以改进推理模型。我目前仍在研究/测试不同的选项,以便不仅应用于这个模型,还应用于其他推理模型的Imatrix数据集构建、内容、生成和增强选项。如需了解另外37个“推理/思考模型”,请点击:https://huggingface.co/collections/DavidAU/d - au - thinking - reasoning - models - reg - and - moes - 67a41ec81d9df996fd1cdd60。服务说明 - Mistral Small 3.1 - 24B的“创意”问题:对于那些发现新的Mistral模型有些缺乏创意的人,我在这里发布了一个系统提示:https://huggingface.co/DavidAU/Mistral - Small - 3.1 - 24B - Instruct - 2503 - MAX - NEO - Imatrix - GGUF(选项3)来改进它 - 它可以与普通/增强型一起使用,功能相同。

讨论总结

该讨论围绕Reasoning Reka - Flash 3 21B模型展开,包含多个方面的内容。有对模型声称无审查特性的怀疑,一些评论者通过自己的测试或使用经历来证明其可能存在审查;也有关于模型功能的讨论,如不能创建角色扮演内容、创建场景时会重复等。此外,还涉及模型管理方面的问题,如如何梳理众多模型和微调,以及一些技术拓展的想法,如希望有能在潜在空间思考的gguf模型等,整体氛围比较偏向于理性的技术交流🧐

主要观点

  1. 👍 可以进行GRPO训练以减少思考
    • 支持理由:未提及反对声音,评论者只是提出这种训练方式的可能性
    • 反对声音:无
  2. 🔥 对模型声称无审查表示怀疑
    • 正方观点:评论者在测试中发现有审查迹象,如首次提示就收到违反政策反馈,模型不能创建角色扮演内容等
    • 反方观点:无明确反方观点提出,分享者未在讨论中回应
  3. 💡 可通过逐个测试和整理源文件来应对众多模型和微调
    • 解释:在面对数量不断增加的新模型及相关选项时,这是一种应对方式,以梳理清楚不同模型的情况

金句与有趣评论

  1. “😂 It should be possible to GRPO train for reduced thinking.”
    • 亮点:提出一种新颖的模型训练方式的想法
  2. “🤔 Yeah uh no, its not uncensored.”
    • 亮点:直接对模型无审查的特性提出质疑
  3. “👀 My desire isnt to produce x rated but that is the defacto test.”
    • 亮点:阐述了判断模型无审查的一种实际测试标准

情感分析

总体情感倾向比较中性,主要分歧点在于模型是否无审查,可能的原因是分享者声称模型无审查,但评论者在实际测试或按照自己的理解发现模型有审查相关的表现,从而产生怀疑🤔

趋势与预测

  • 新兴话题:可能会有更多关于模型在不同运行环境(如ollama、llamacpp等)下的功能和特性的讨论。
  • 潜在影响:如果对模型无审查特性的质疑属实,可能影响该模型的口碑和用户使用情况,也会促使模型开发者更加严谨地定义和宣传模型特性😉

详细内容:

标题:关于新型推理模型 Reka-Flash 3 21B 的热门讨论

在 Reddit 上,一个关于新型推理模型 Reka-Flash 3 21B 的帖子引起了广泛关注,获得了众多点赞和大量评论。帖子介绍了该模型经过了增强处理,使用了 NEO Imatrix 数据集,测试显示推理令牌减少了多达 50%,且该模型未经过审查。在“一对一”的测试中,此模型推理更顺畅,很少“迷失”,输出更强。同时还提供了多个相关链接,包括模型的详细信息、示例生成、更多推理模型的集合等。

讨论的焦点主要集中在该模型是否真正未经过审查。有人认为模型并非真正未审查,比如有用户说:“Explicit content is against the policy. 很明显是经过审查的。”但也有人表示经过测试,该模型通过了一些会导致其他模型出现问题的基本提示。

还有用户分享了关于模型训练和测试的见解与观点。例如,有人提出“应该可以通过 GRPO 训练来减少思考,为其设置奖励函数是一件容易的事情。” 还有人提到“response_length = [len(response) for response in responses] ,如果响应长度小于 10000 且提取的答案正确,奖励增加 4 。”

在性能测试方面,有用户表示:“我测试了 IQ4_XS 与 QWQ Q4_K_L 在 3090 上的表现,结论是 QWQ 速度快 3.4 倍。”但也有人指出,不同的架构和量化方式可能会影响性能。

关于如何管理众多模型和微调,有人表示:“测试它们一个一个来,坚持不懈地整理源文件。”

总的来说,关于新型推理模型 Reka-Flash 3 21B 是否真正未审查以及其性能表现和管理方式,大家各抒己见,讨论热烈。但目前仍存在一些争议和未明确的问题,有待进一步的研究和探讨。