原贴链接

这是对上一篇帖子的更新帖。我已经上传了之前讨论过的代码的推理页面([推理](https://github.com/alientony/Split - brain/blob/main/inference - app.py))。你可以在这里下载融合层(融合层)。原始模型可在以下网址找到:[https://huggingface.co/deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B](https://huggingface.co/deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B)、[https://huggingface.co/meta - llama/Llama - 3.2 - 1B](https://huggingface.co/meta - llama/Llama - 3.2 - 1B)。到目前为止,推理过程很有趣。不幸的是,我手头只有用于训练的原始gpt4all数据集(800mb)。我还了解到,如果要用融合层对一个模型输出进行微分,可能应该再做一个。所以接下来我将更新训练并再次尝试。但我对这个新的疯狂系统非常着迷。如下所见,虽然我们没有让左边的模型描述巧克力曲奇的历史,但它确实在其‘思考’空间内开始朝着那个方向思考。我已经多次重现这种‘思考方向’,但非常不稳定。由于架构运行方式的依赖性,两个模型实际上不在同一水平线上,并且是不对称的而不是镜像的。我需要解决的一个主要问题是融合层,以重新调整右边的模型来产生可用的标记。我还需要一个更大的数据集,因为这将为模型间的‘信息共享’提供更广泛的训练分支,但我觉得这些结果大体上是可以接受的。

讨论总结

原帖作者分享了split brain相关的更新内容,包括推理页面、融合层下载地址等,还提及目前的推理情况、训练数据不足和模型存在的问题等。评论者们态度多样,有的对原帖表示认可或感兴趣,有的提出改进建议,还有的进行技术相关的询问等,整体氛围积极向上,大家都围绕split brain这个主题展开讨论。

主要观点

  1. 👍 原帖想法值得探索但目前输出在语义理解上有问题。
    • 支持理由:从做架构实验的经验出发得出结论。
    • 反对声音:无。
  2. 👍 对原帖内容表示肯定。
    • 正方观点:原帖分享了很多有价值的内容。
    • 反方观点:无。
  3. 💡 建议用新变压器模型作融合模型。
    • 解释:从自身架构实验经验提出。
  4. 💡 应获取每层最终隐藏状态并用可学习的门。
    • 解释:基于自身做实验的经验给出建议。
  5. 💡 移除sigmoid选通有助于改进输出。
    • 解释:以自己的经验判断。

金句与有趣评论

  1. “😂 Instead of using a fusion layer try using a new transformer model (see nanogpt) as a fusion model it can still be a small one.”
    • 亮点:提出了一种新的融合模型的替代方案。
  2. “🤔 Instead of using the final hidden state try getting the final hidden state for each layer and use a learnable gate (without sigmoid so it can fine tune how much to use rather than 0 or 1) at the end of each layer.”
    • 亮点:给出关于隐藏状态使用的新思路。
  3. “👀 That’s what I call interesting!”
    • 亮点:简单直接表达对原帖内容的兴趣。

情感分析

总体情感倾向是积极的。主要分歧点较少,大部分评论者都对原帖表示认可或者积极探讨相关话题。可能的原因是原帖作者分享的内容具有一定的创新性和探索性,吸引了大家积极参与讨论。

趋势与预测

  • 新兴话题:关于模型合并以及多输出框架的进一步探讨。
  • 潜在影响:可能对split brain相关技术的发展提供新的思路,推动模型在单任务和多任务模式下更好地协作。

详细内容:

《关于“Split brain”的热门讨论:探索与挑战》

在 Reddit 上,一篇题为“Split brain (Update) - What I’ve learned and will improve”的帖子引起了广泛关注。该帖子提供了多个相关链接,包括之前的讨论Here、推理页面Inference、融合层Fusion layer以及原始模型https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5Bhttps://huggingface.co/meta-llama/Llama-3.2-1B

到目前为止,推理过程十分有趣,但作者仅拥有 800mb 的原始 gpt4all 数据集用于训练。作者在实践中发现了一些问题,比如需要修复融合层以调整模型产生可用的标记,还需要更大的数据集以拓展训练范围。同时,作者对这个新系统充满了好奇,并多次成功复制了某种“思维方向”,但结果非常不稳定。

此贴引发了众多精彩的讨论。有人认为这个想法确实值得探索,但目前的输出在理解上存在严重问题,语义极为基础。有人提出了一些实用的建议,比如可以尝试使用新的变压器模型作为融合模型,或者获取每层的最终隐藏状态并使用可学习的门等。有人还分享了个人进行架构实验的经验和学到的技巧。也有人对这种不同寻常的想法表示感兴趣,比如思考能否以这种方式合并单个模型的多个实例以及可能带来的可能性。还有人询问作者看到了哪些让其感到乐观的结果,以及如何将其用于单任务和多任务模式等。

在讨论中,大家的共识是这个研究方向具有很大的潜力,但目前还存在诸多需要解决的问题和改进的空间。而特别有见地的观点是关于如何优化融合模型的具体技术建议,这些观点为进一步的研究提供了新的思路和方向。

总之,关于“Split brain”的讨论充满了创新和探索,虽然面临诸多挑战,但也为相关领域的发展带来了新的可能性。希望作者能继续更新研究进展,为我们带来更多惊喜。