原贴链接

发布：Recursal发布了2个新的实验模型（查看它们在HuggingFace的模型卡片获取基准测试数据）：QRWKV6 - 32B - Instruct - Preview - v0.1和Finch - MoE - 37B - A11B - v0.1 - HF。QRWKV6是基于Qwen2.5 - 32B的模型。我们能够将任何之前基于QKV Attention训练的模型（如Qwen和LLaMA）转换为RWKV变体而无需从头重新训练。RWKV是一种可替代Transformer的RNN架构，具有线性时间复杂度。QRWKV6是Qwen2.5架构和RWKV6的组合，在转换过程中最多能达到16k的上下文长度。Finch - MoE是基于RWKV - 6（Finch）的混合专家模型（MoE），总参数为37B，活跃参数为11B。这个模型使用经过2T个标记训练的RWKV - 6 7B模型，转换为MoE后又训练了110B个标记。未来计划：如果对QRWKV6的性能不满意，他们计划发布更多模型，如Q - RWKV - 7 32B、LLaMA - RWKV - 7 70B。链接：给出了两个模型在HuggingFace的模型卡片链接。

讨论总结

这个讨论围绕新发布的模型QRWKV6 - 32B和Finch - MoE - 37B - A11B展开。评论者们表达了对模型的认可、期待，也探讨了模型开发相关的如数据需求、模型转换等问题，同时涉及模型运行的环境、推理后端支持，还讨论了模型性能方面像速度比较、上下文长度等话题，并且有一些补充信息和信息分享类的评论。

主要观点

👍 认可新发布的模型QRWKV6 - 32B和Finch - MoE - 37B - A11B很了不起
- 支持理由：多个评论者表示对模型感兴趣、认为背后的方法聪明、期待测试等
- 反对声音：无
🔥 对QwQ模型进行类似操作存在困难
- 正方观点：制作QwQ模型需要推理式数据，如果数据分布不同效果就不好
- 反方观点：无
💡 对转换后模型的上下文长度小感到奇怪
- 解释：有评论者提到按照预期转换后的模型上下文长度不应这么小，引出关于资源限制或者即将推出RWKV7不必浪费资源等可能原因的讨论
💡 新模型发布缺乏速度和内存比较难以让人激动
- 解释：评论者指出缺乏这方面比较，难以判断模型的优势，其他人则从理论和实际情况解释RWKV的速度特点、未得到大众关注等问题
💡 对如何运行新模型存在疑惑并遇到技术问题
- 解释：评论者在尝试运行模型时遇到如安装包错误、版本不支持、内存不足等问题

金句与有趣评论

“😂 I hope they’ll do the QwQ models as well, but this is amazing. Well done :)”
- 亮点：表达了对新模型发布的认可和对更多类似操作的期待
“🤔 this is extremely exciting, been following rwkv for a while now and it’s super promising.”
- 亮点：体现出评论者对RWKV长期关注以及看到相关进展后的兴奋
“👀 Yes! If the context is long enough it will be significantly faster than a Transformer, but it might have also forgotten some of the information the earlier tokens contained.”
- 亮点：解释了RWKV在速度方面的优势以及可能存在的信息遗忘问题
“😎 The approach behind QRWKV6 is quite clever.”
- 亮点：对QRWKV6研发思路的认可
“🤨 I’m looking forward to testing it.”
- 亮点：表现出对测试QRWKV6的期待

情感分析

总体情感倾向是积极的，大家对新模型的发布大多持认可和期待的态度。主要分歧点在于新模型的一些性能方面，如缺乏速度和内存比较让人难以完全兴奋起来。可能的原因是评论者们从不同角度看待模型，有从技术研发角度的认可，也有从实际应用和性能对比角度的谨慎态度。

趋势与预测

新兴话题：新发布模型在不同运行环境下的实现、更多关于RWKV系列模型的发布情况。
潜在影响：如果这些模型能够成功运行并达到预期效果，可能会对自然语言处理等相关领域产生积极影响，推动线性模型相关技术的发展。

详细内容：

标题：新型线性模型 QRWKV6-32B 和 Finch-MoE-37B-A11B 在 Reddit 上引发热议

近日，Reddit 上一则关于新型线性模型 QRWKV6-32B 和 Finch-MoE-37B-A11B 的帖子引起了众多关注。该帖子获得了大量的点赞和众多评论。

帖子主要介绍了 Recursal 发布的两个新实验模型：QRWKV6-32B-Instruct-Preview-v0.1 和 Finch-MoE-37B-A11B-v0.1-HF。QRWKV6 是基于 Qwen2.5-32B 的模型，能够将先前训练的基于 QKV 注意力的模型转换为 RWKV 变体，无需从头开始重新训练。而 Finch-MoE 是基于 RWKV-6 的混合专家模型。

讨论焦点主要集中在以下几个方面：有人希望能有 QwQ 模型，并且提到需要推理风格的数据。有人认为 QRWKV6 在“O1 风格推理时间思考”方面有所探索。有人觉得模型的上下文长度较小有些奇怪，可能是因为训练时的限制或等待 RWKV 7 版本。还有人指出 RWKV 潜力巨大，但在公众关注度和推广方面存在问题。

有人表示不了解每个专业词汇的意思，询问实际中是否会更快，得到的回复是在上下文足够长时会比 Transformer 显著更快，但可能会遗忘早期令牌包含的一些信息。有人询问是否能在特定平台上运行这些模型，回答是新架构需要有人去实现，可能需要时间。有人关心速度比较和推理后端支持的问题，认为理论上 RWKV 应更快、内存使用更少，但实践中推理引擎优化不足，且不同模型和上下文长度的比较情况复杂，期待后续能有更多速度比较。

总的来说，大家对这些新型模型充满期待，但也存在一些疑问和不确定，比如模型的实际性能、推广应用以及技术实现的细节等。未来还需更多的测试和实践来验证这些新型线性模型的优势和潜力。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#