原贴链接

发布:Recursal发布了2个新的实验模型(查看它们在HuggingFace的模型卡片获取基准测试数据):QRWKV6 - 32B - Instruct - Preview - v0.1和Finch - MoE - 37B - A11B - v0.1 - HF。QRWKV6是基于Qwen2.5 - 32B的模型。我们能够将任何之前基于QKV Attention训练的模型(如Qwen和LLaMA)转换为RWKV变体而无需从头重新训练。RWKV是一种可替代Transformer的RNN架构,具有线性时间复杂度。QRWKV6是Qwen2.5架构和RWKV6的组合,在转换过程中最多能达到16k的上下文长度。Finch - MoE是基于RWKV - 6(Finch)的混合专家模型(MoE),总参数为37B,活跃参数为11B。这个模型使用经过2T个标记训练的RWKV - 6 7B模型,转换为MoE后又训练了110B个标记。未来计划:如果对QRWKV6的性能不满意,他们计划发布更多模型,如Q - RWKV - 7 32B、LLaMA - RWKV - 7 70B。链接:给出了两个模型在HuggingFace的模型卡片链接。

讨论总结

这个讨论围绕新发布的模型QRWKV6 - 32B和Finch - MoE - 37B - A11B展开。评论者们表达了对模型的认可、期待,也探讨了模型开发相关的如数据需求、模型转换等问题,同时涉及模型运行的环境、推理后端支持,还讨论了模型性能方面像速度比较、上下文长度等话题,并且有一些补充信息和信息分享类的评论。

主要观点

  1. 👍 认可新发布的模型QRWKV6 - 32B和Finch - MoE - 37B - A11B很了不起
    • 支持理由:多个评论者表示对模型感兴趣、认为背后的方法聪明、期待测试等
    • 反对声音:无
  2. 🔥 对QwQ模型进行类似操作存在困难
    • 正方观点:制作QwQ模型需要推理式数据,如果数据分布不同效果就不好
    • 反方观点:无
  3. 💡 对转换后模型的上下文长度小感到奇怪
    • 解释:有评论者提到按照预期转换后的模型上下文长度不应这么小,引出关于资源限制或者即将推出RWKV7不必浪费资源等可能原因的讨论
  4. 💡 新模型发布缺乏速度和内存比较难以让人激动
    • 解释:评论者指出缺乏这方面比较,难以判断模型的优势,其他人则从理论和实际情况解释RWKV的速度特点、未得到大众关注等问题
  5. 💡 对如何运行新模型存在疑惑并遇到技术问题
    • 解释:评论者在尝试运行模型时遇到如安装包错误、版本不支持、内存不足等问题

金句与有趣评论

  1. “😂 I hope they’ll do the QwQ models as well, but this is amazing. Well done :)”
    • 亮点:表达了对新模型发布的认可和对更多类似操作的期待
  2. “🤔 this is extremely exciting, been following rwkv for a while now and it’s super promising.”
    • 亮点:体现出评论者对RWKV长期关注以及看到相关进展后的兴奋
  3. “👀 Yes! If the context is long enough it will be significantly faster than a Transformer, but it might have also forgotten some of the information the earlier tokens contained.”
    • 亮点:解释了RWKV在速度方面的优势以及可能存在的信息遗忘问题
  4. “😎 The approach behind QRWKV6 is quite clever.”
    • 亮点:对QRWKV6研发思路的认可
  5. “🤨 I’m looking forward to testing it.”
    • 亮点:表现出对测试QRWKV6的期待

情感分析

总体情感倾向是积极的,大家对新模型的发布大多持认可和期待的态度。主要分歧点在于新模型的一些性能方面,如缺乏速度和内存比较让人难以完全兴奋起来。可能的原因是评论者们从不同角度看待模型,有从技术研发角度的认可,也有从实际应用和性能对比角度的谨慎态度。

趋势与预测

  • 新兴话题:新发布模型在不同运行环境下的实现、更多关于RWKV系列模型的发布情况。
  • 潜在影响:如果这些模型能够成功运行并达到预期效果,可能会对自然语言处理等相关领域产生积极影响,推动线性模型相关技术的发展。

详细内容:

标题:新型线性模型 QRWKV6-32B 和 Finch-MoE-37B-A11B 在 Reddit 上引发热议

近日,Reddit 上一则关于新型线性模型 QRWKV6-32B 和 Finch-MoE-37B-A11B 的帖子引起了众多关注。该帖子获得了大量的点赞和众多评论。

帖子主要介绍了 Recursal 发布的两个新实验模型:QRWKV6-32B-Instruct-Preview-v0.1 和 Finch-MoE-37B-A11B-v0.1-HF。QRWKV6 是基于 Qwen2.5-32B 的模型,能够将先前训练的基于 QKV 注意力的模型转换为 RWKV 变体,无需从头开始重新训练。而 Finch-MoE 是基于 RWKV-6 的混合专家模型。

讨论焦点主要集中在以下几个方面: 有人希望能有 QwQ 模型,并且提到需要推理风格的数据。有人认为 QRWKV6 在“O1 风格推理时间思考”方面有所探索。有人觉得模型的上下文长度较小有些奇怪,可能是因为训练时的限制或等待 RWKV 7 版本。还有人指出 RWKV 潜力巨大,但在公众关注度和推广方面存在问题。

有人表示不了解每个专业词汇的意思,询问实际中是否会更快,得到的回复是在上下文足够长时会比 Transformer 显著更快,但可能会遗忘早期令牌包含的一些信息。有人询问是否能在特定平台上运行这些模型,回答是新架构需要有人去实现,可能需要时间。有人关心速度比较和推理后端支持的问题,认为理论上 RWKV 应更快、内存使用更少,但实践中推理引擎优化不足,且不同模型和上下文长度的比较情况复杂,期待后续能有更多速度比较。

总的来说,大家对这些新型模型充满期待,但也存在一些疑问和不确定,比如模型的实际性能、推广应用以及技术实现的细节等。未来还需更多的测试和实践来验证这些新型线性模型的优势和潜力。