模型与技术 模型架构

Qwen2.5架构与Llama3-3.1非常相似

讨论围绕Qwen2.5和Llama3-3.1的架构相似性展开,探讨了训练方法对模型性能的影响,并提出了微调指令型LLM的可能性。

 ·  · 
模型与技术 模型架构

多层次神经网络

讨论围绕多层次神经网络系统的构建展开,探讨了其优势、挑战及未来发展方向,涉及模块化AI、专家模型、训练数据等多个关键话题。

 ·  · 
模型与技术 模型架构

Flux的架构图 :) 没有找到相关论文,所以快速浏览了他们的代码。可能有助于理解当前的Diffusion架构

讨论围绕“Flux”模型的架构图展开,涉及技术细节、美感欣赏和潜在应用,总体氛围积极且充满探索精神。

 ·  · 
模型与技术 模型架构

什么是SwiGLU?一个从底层到顶层的全面解释,以及为什么每个新的LLM都使用它

讨论围绕SwiGLU技术在大型语言模型中的应用,涉及其效率、交互性及与其他激活函数的区别。

 ·  · 
模型与技术 模型架构

Llama 3 - 完全使用C语言编写

Reddit用户讨论了Llama 3项目完全使用C语言开发的细节和潜在影响。

 ·  ·