原贴链接

自从DeepSeek发布以来，每个人都关注：引人注目的头条新闻、公司竞争以及构建由DeepSeek驱动的大型语言模型（LLM）应用。但我强烈认为学生、研究人员、工程师和在职专业人员应该关注基础。我们真正应该问自己的问题是：‘我能否自己从零构建DeepSeek架构和模型？’如果问这个问题，就会发现要使DeepSeek运行，有一些关键要素起作用：混合专家（MoE）、多头潜在注意力（MLA）、旋转位置编码（RoPE）、多标记预测（MTP）、监督微调（SFT）、组相对策略优化（GRPO）。‘从零构建DeepSeek’系列课程的目的是：教授上述6个要素背后的数学基础；从头编写上述6个要素的代码；组合这些要素并在自己的设备上运行一个‘迷你Deep - Seek’。完成之后，你将跻身能够自行构建DeepSeek要素的前0.1%的机器学习/大型语言模型（LLM）工程师之列。这个系列课程不是1小时或2小时的视频，而是一个包含35 - 40个视频、时长40多个小时的大型系列课程，内容深入、无废话、干货满满。附：有一个小动图展示我们做的笔记，这只是我们为这个系列准备的笔记和材料总量的5 - 10%。

讨论总结

原帖是关于由MIT博士毕业生教授从零构建DeepSeek的宣传，包括教学内容、目标等。评论内容多样，有对作者身份与售卖知识行为的讨论，有针对YouTube首播时区的简单提问，还有对构建DeepSeek时是否应使用PTX、缺失数据集和计算能力等关键要素的探讨，以及对炫耀背景行为的看法、对原帖内容表示感激或赞赏、对项目的好奇和兴趣等。

主要观点

👍 对自身特定身份与原帖内容关联的疑惑。
- 支持理由：评论者以自身身份为例提出疑问。
- 反对声音：无。
🔥 原帖构建DeepSeek的内容缺失PTX相关部分。
- 正方观点：认为不提及PTX是忽略了DeepSeek重要之处。
- 反方观点：有人认为不应在免费教程时挑刺。
💡 构建DeepSeek存在被遗漏的重要要素是数据集和计算能力。
- 正方观点：列举可能的数据集和计算能力来源。
- 反方观点：有人对数据集大小和计算能力数值表示怀疑。
😕 炫耀背景的YouTube博主会让人对内容更怀疑。
- 支持理由：好内容不应靠背景吸引观众，学术论文双盲评审有合理性。
- 反对声音：不是针对原帖作者，只是对这种行为反感。
🤝 对分享行为表示感激。
- 支持理由：原帖分享了构建DeepSeek的相关信息。
- 反对声音：无。

金句与有趣评论

“😂 SkyFeistyLlama8: I’m a TIM DhP graduate, does that matter?”
- 亮点：以自身身份对原帖内容中作者身份关联提出疑问，开启相关话题讨论。
“🤔 BusRevolutionary9893: Not even a mention of using Nvidia’s Parallel Thread Execution (PTX) instead of CUDA for certain functions. You are missing what makes DeepSeek a big deal if you only focus on what it can do instead of how cheap and efficiently they were able to make it.”
- 亮点：指出原帖构建DeepSeek内容的不足，引发不同观点的讨论。
“👀 ResearchCrafty1804：In reality, there are 2 ingredients that are missing and they are the most important, the dataset and the computing power”
- 亮点：提出构建DeepSeek中两个重要的遗漏要素，带动后续大量相关讨论。
“😒 RobbinDeBank：Nowadays, seeing YouTuber showing off their credentials with huge university/company only makes me more suspicious of the contents.”
- 亮点：表达对炫耀背景的YouTube博主的怀疑态度，反映部分用户心声。
“😊 LagOps91：Thanks a lot for sharing!”
- 亮点：简单直接地表达对原帖分享行为的感激之情。

情感分析

总体情感倾向较复杂，既有积极的感激、赞赏，也有怀疑、质疑等负面情绪。主要分歧点在于对原帖作者身份展示、内容完整性等方面。可能的原因是不同用户对知识分享、教学内容以及背景因素的重视程度和看法不同。

趋势与预测

新兴话题：关于PTX在构建DeepSeek中的应用场景可能会有更多讨论。
潜在影响：如果关于构建DeepSeek的教学视频推出，可能会影响更多人对大模型构建相关知识的获取，也可能促使更多人关注构建中的细节要素。

详细内容：

《关于“从零基础构建 DeepSeek”的热门讨论》

在 Reddit 上，一个题为“Let’s build DeepSeek from Scratch | Taught by MIT PhD graduate”的帖子引发了广泛关注。此帖主要介绍了一个关于从零基础构建 DeepSeek 的系列教程，将在下午 6 点于 Youtube 首播，链接为https://youtu.be/QWNxQIq0hMo?si=YVHJtgMRjlVj2SZJ 。帖子指出构建 DeepSeek 涉及多个关键要素，并表明该系列教程将深入讲解这些要素的数学基础和编码过程，最终让学习者能够自行运行一个“迷你 Deep-Seek”。此帖获得了众多评论和较高的关注度。

讨论的焦点主要集中在以下几个方面：有人质疑 TIM DhP 毕业生的身份是否重要；有人询问时区问题；有人指出教程未提及使用 Nvidia 的 Parallel Thread Execution (PTX) 替代 CUDA ；有人认为教程缺少最重要的数据集和计算能力，也有人对此进行反驳；还有人对发布者展示的 MIT 博士学历表示怀疑，认为好的内容不应依赖作者的背景，不过也有人认为有真实背景是优势。

比如，有用户分享道：“我是一名 TIM DhP 毕业生，这有关系吗？” 还有用户表示：“他在兜售自己辛苦得来的博士学位。这有什么错？”

在关于数据集和计算能力的讨论中，有人说：“实际上，有两个最重要的要素被遗漏了，那就是数据集和计算能力。” 但也有人反驳：“没人确切知道使用了多少计算能力，发布那个数字的半分析人员在他的分析中有个大的 Excel 公式错误，就算没有，这也仍是推测。”

关于发布者的学历，有人评论道：“如今，看到 YouTuber 炫耀他们来自大学校或大公司的资历，只会让我更怀疑内容。最好的内容是人们在不知道作者来自麻省理工或斯坦福或为 FAANG 工作的情况下愿意观看的内容。” 但也有人回应：“哈哈什么？YouTube 上有太多的劣质内容和抄袭，如果制作视频的人真的有我能核实的真实资历，那是一个巨大的优势。”

总之，这次关于从零基础构建 DeepSeek 的讨论充满了各种观点和争议，既有对教程内容的深入探讨，也有对发布者背景和方式的不同看法。这反映了大家对于这一技术学习和分享的高度关注和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#