MIT博士教你从头构建大型语言模型
[原帖作者分享自己从MIT博士毕业且录制了44个构建LLM的视频,评论者有的表示赞赏和感谢,有的对原帖呈现方式提出批评,还有对视频相关的一些疑问和讨论]
[原帖作者分享自己从MIT博士毕业且录制了44个构建LLM的视频,评论者有的表示赞赏和感谢,有的对原帖呈现方式提出批评,还有对视频相关的一些疑问和讨论]
[该讨论围绕论文中图灵完备性相关内容展开,涉及大型语言模型、推理能力等,有对图灵完备性与推理关系的辩论,也有对智能是否图灵可计算的讨论,气氛热烈且有深度。]
[围绕Qwen 2.5支持128k上下文长度但输出最多8k的现象展开讨论,涉及模型连贯性、输出限制的原因、相关技术疑问等多方面内容,讨论氛围较为理性探讨]
[关于AI代理是否可作为有限状态机展开讨论,涉及相关技术对比、工具推荐、对OpenAI的质疑、AI领域欺诈现象以及AI代理发展等多方面内容,氛围较为理性探讨]
[原帖询问混合专家与密集模型在相同参数数量下性能对比的论文,评论者们有的提供相关文章链接,有的分享自己的观察,也有对模型比较可行性的讨论,整体氛围较积极且有一定的深度探讨]
[帖子围绕关于模型的一些论断展开讨论,包含模型关系、价格差异等方面,有赞同、质疑等不同态度,整体讨论氛围理性且充满探索性]
[在ollama模型大小随上下文增加而增加的背景下,大家展开技术讨论,涉及模型架构、内存计算等多方面内容,整体氛围理性客观]
[原帖介绍基于神经科学启发的LLM应用记忆层项目HawkinsDB寻求反馈,评论者从项目命名、对参考书籍作者的看法、项目的创新性、AI术语使用、项目应用场景、推广方式等多方面进行讨论,整体氛围比较积极理性。]
[帖子介绍了noise_step相关内容,评论者们多对其表示质疑,包括存储容量、性能损失、实验依据等方面,整体氛围充满怀疑。]
[围绕DeepSeek V3的MOE修剪展开讨论,涉及模型的特性、资源受限、商业应用等多方面,有技术探索、建议和期望,整体氛围积极探讨]