自从DeepSeek发布以来,每个人都关注:引人注目的头条新闻、公司竞争以及构建由DeepSeek驱动的大型语言模型(LLM)应用。但我强烈认为学生、研究人员、工程师和在职专业人员应该关注基础。我们真正应该问自己的问题是:‘我能否自己从零构建DeepSeek架构和模型?’如果问这个问题,就会发现要使DeepSeek运行,有一些关键要素起作用:混合专家(MoE)、多头潜在注意力(MLA)、旋转位置编码(RoPE)、多标记预测(MTP)、监督微调(SFT)、组相对策略优化(GRPO)。‘从零构建DeepSeek’系列课程的目的是:教授上述6个要素背后的数学基础;从头编写上述6个要素的代码;组合这些要素并在自己的设备上运行一个‘迷你Deep - Seek’。完成之后,你将跻身能够自行构建DeepSeek要素的前0.1%的机器学习/大型语言模型(LLM)工程师之列。这个系列课程不是1小时或2小时的视频,而是一个包含35 - 40个视频、时长40多个小时的大型系列课程,内容深入、无废话、干货满满。附:有一个小动图展示我们做的笔记,这只是我们为这个系列准备的笔记和材料总量的5 - 10%。
讨论总结
原帖是关于由MIT博士毕业生教授从零构建DeepSeek的宣传,包括教学内容、目标等。评论内容多样,有对作者身份与售卖知识行为的讨论,有针对YouTube首播时区的简单提问,还有对构建DeepSeek时是否应使用PTX、缺失数据集和计算能力等关键要素的探讨,以及对炫耀背景行为的看法、对原帖内容表示感激或赞赏、对项目的好奇和兴趣等。
主要观点
- 👍 对自身特定身份与原帖内容关联的疑惑。
- 支持理由:评论者以自身身份为例提出疑问。
- 反对声音:无。
- 🔥 原帖构建DeepSeek的内容缺失PTX相关部分。
- 正方观点:认为不提及PTX是忽略了DeepSeek重要之处。
- 反方观点:有人认为不应在免费教程时挑刺。
- 💡 构建DeepSeek存在被遗漏的重要要素是数据集和计算能力。
- 正方观点:列举可能的数据集和计算能力来源。
- 反方观点:有人对数据集大小和计算能力数值表示怀疑。
- 😕 炫耀背景的YouTube博主会让人对内容更怀疑。
- 支持理由:好内容不应靠背景吸引观众,学术论文双盲评审有合理性。
- 反对声音:不是针对原帖作者,只是对这种行为反感。
- 🤝 对分享行为表示感激。
- 支持理由:原帖分享了构建DeepSeek的相关信息。
- 反对声音:无。
金句与有趣评论
- “😂 SkyFeistyLlama8: I’m a TIM DhP graduate, does that matter?”
- 亮点:以自身身份对原帖内容中作者身份关联提出疑问,开启相关话题讨论。
- “🤔 BusRevolutionary9893: Not even a mention of using Nvidia’s Parallel Thread Execution (PTX) instead of CUDA for certain functions. You are missing what makes DeepSeek a big deal if you only focus on what it can do instead of how cheap and efficiently they were able to make it.”
- 亮点:指出原帖构建DeepSeek内容的不足,引发不同观点的讨论。
- “👀 ResearchCrafty1804:In reality, there are 2 ingredients that are missing and they are the most important, the dataset and the computing power”
- 亮点:提出构建DeepSeek中两个重要的遗漏要素,带动后续大量相关讨论。
- “😒 RobbinDeBank:Nowadays, seeing YouTuber showing off their credentials with huge university/company only makes me more suspicious of the contents.”
- 亮点:表达对炫耀背景的YouTube博主的怀疑态度,反映部分用户心声。
- “😊 LagOps91:Thanks a lot for sharing!”
- 亮点:简单直接地表达对原帖分享行为的感激之情。
情感分析
总体情感倾向较复杂,既有积极的感激、赞赏,也有怀疑、质疑等负面情绪。主要分歧点在于对原帖作者身份展示、内容完整性等方面。可能的原因是不同用户对知识分享、教学内容以及背景因素的重视程度和看法不同。
趋势与预测
- 新兴话题:关于PTX在构建DeepSeek中的应用场景可能会有更多讨论。
- 潜在影响:如果关于构建DeepSeek的教学视频推出,可能会影响更多人对大模型构建相关知识的获取,也可能促使更多人关注构建中的细节要素。
详细内容:
《关于“从零基础构建 DeepSeek”的热门讨论》
在 Reddit 上,一个题为“Let’s build DeepSeek from Scratch | Taught by MIT PhD graduate”的帖子引发了广泛关注。此帖主要介绍了一个关于从零基础构建 DeepSeek 的系列教程,将在下午 6 点于 Youtube 首播,链接为https://youtu.be/QWNxQIq0hMo?si=YVHJtgMRjlVj2SZJ 。帖子指出构建 DeepSeek 涉及多个关键要素,并表明该系列教程将深入讲解这些要素的数学基础和编码过程,最终让学习者能够自行运行一个“迷你 Deep-Seek”。此帖获得了众多评论和较高的关注度。
讨论的焦点主要集中在以下几个方面: 有人质疑 TIM DhP 毕业生的身份是否重要;有人询问时区问题;有人指出教程未提及使用 Nvidia 的 Parallel Thread Execution (PTX) 替代 CUDA ;有人认为教程缺少最重要的数据集和计算能力,也有人对此进行反驳;还有人对发布者展示的 MIT 博士学历表示怀疑,认为好的内容不应依赖作者的背景,不过也有人认为有真实背景是优势。
比如,有用户分享道:“我是一名 TIM DhP 毕业生,这有关系吗?” 还有用户表示:“他在兜售自己辛苦得来的博士学位。这有什么错?”
在关于数据集和计算能力的讨论中,有人说:“实际上,有两个最重要的要素被遗漏了,那就是数据集和计算能力。” 但也有人反驳:“没人确切知道使用了多少计算能力,发布那个数字的半分析人员在他的分析中有个大的 Excel 公式错误,就算没有,这也仍是推测。”
关于发布者的学历,有人评论道:“如今,看到 YouTuber 炫耀他们来自大学校或大公司的资历,只会让我更怀疑内容。最好的内容是人们在不知道作者来自麻省理工或斯坦福或为 FAANG 工作的情况下愿意观看的内容。” 但也有人回应:“哈哈什么?YouTube 上有太多的劣质内容和抄袭,如果制作视频的人真的有我能核实的真实资历,那是一个巨大的优势。”
总之,这次关于从零基础构建 DeepSeek 的讨论充满了各种观点和争议,既有对教程内容的深入探讨,也有对发布者背景和方式的不同看法。这反映了大家对于这一技术学习和分享的高度关注和思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!