原贴链接

通过机器学习过程创建的一个函数,基本上是根据输入的标记字符串预测下一个标记。那么通常所说的“上下文”就是输入,这种说法是否准确呢?并且,为了“运行”一个大型语言模型(LLM),一个程序基本上会在当前上下文中反复运行这个函数以得到下一个标记,用新的标记更新上下文并重复,直到达到最大输入长度,或者满足其他条件等。那么,与它所训练的其他任何文本相比,提示模板对LLM来说并没有真正具有任何特殊意义,除了在这样一种意义上:为了(希望)使LLM在使用提示模板时更有可能按照期望的方式运行,提示模板可能已经被纳入训练数据。我知道我表述不完全正确。但这说得通吗?大致正确吗?

讨论总结

原帖对大型语言模型(LLM)是否可视为输入为标记串输出为单个标记的函数等概念进行提问。评论者从不同角度进行回应,包括对LLM原理的深度剖析如输出是概率分布、LLM不是函数而是权重等;探讨LLM运行机制如预测下一个标记、在不同类型模型中上下文的作用等;还涉及指令调整、提示模板的意义、是否存在作弊情况等方面,整体讨论氛围以理性的技术探讨为主。

主要观点

  1. 👍 LLM技术上输出的是下一个标记的概率分布,然后采样
    • 支持理由:这是从技术角度对LLM输出的准确描述,符合其工作原理。
    • 反对声音:有观点认为输出的是下一个标记的嵌入,概率分布通过计算输出和标记字典之间的距离得到,且采样并非必须;还有观点指出Transformer输出一个向量,一个矩阵将该向量转换为标记的对数几率。
  2. 🔥 LLM在预测提问和回答问题方面能力相当,因为都接受过相关训练
    • 正方观点:在LLM的训练数据中包含提问和回答相关文本,所以能力相当。
    • 反方观点:无明显反方观点表述。
  3. 💡 原始LLM没有回答问题的概念,只是尝试预测下一个输入
    • 解释:原始LLM只是进行下一个输入的预测,经指令调整才倾向于回答问题。
  4. 💡 将LLM看作构建系统的平台,这种观点在未来构建涉及LLM的系统时有益
    • 解释:有助于在未来构建LLM相关系统,并且这种观点逐渐成为常见主题。
  5. 💡 LLM不是函数而是大量权重值
    • 解释:权重描述神经网络神经元关系,而转换器可被看作函数,LLM的权重被转换器算法用于生成下一个标记的概率分布。

金句与有趣评论

  1. “😂 NoobNamedErik:Nailed it, except if you wanna get specific bordering on pedantic, it technically outputs a probability distribution over what it thinks the next token will be, and then that distribution is sampled. Kind of like throwing a dart at a pie chart representing those probabilities.”
    • 亮点:以生动的比喻(向饼图投飞镖)解释了LLM输出概率分布然后采样的原理。
  2. “🤔 You have it, yeah”
    • 亮点:简洁地肯定原帖作者对LLM相关概念的理解。
  3. “👀 I like to think of the LLM as a CPU, not en end goal - but a platform upon which (or with which) you build a system.”
    • 亮点:提出将LLM比作CPU的新颖观点,为构建LLM相关系统提供新视角。
  4. “😂 In case this wasn’t completely clear, if you let the LLM run it will start talking for you, writing your next question and then answering that question. It’s just as good at predicting your questions as writing its answers, because it was trained on both”
    • 亮点:清晰地解释了LLM在预测提问和回答问题方面能力相当的原因。
  5. “🤔 The LLM itself, given the same inputs, will output the same token distribution.”
    • 亮点:强调了LLM在相同输入下输出相同标记分布的特性,体现其确定性的一面。

情感分析

总体情感倾向为中性偏正面。正面体现在多数评论者对原帖作者的理解给予肯定、对LLM相关知识进行理性的分享与讨论。分歧点主要在于对LLM工作原理细节的理解,如输出到底是概率分布还是标记嵌入等,可能的原因是LLM技术复杂,不同人从不同角度(技术的不同层面、不同的类比理解等)去看待会产生不同的结论。

趋势与预测

  • 新兴话题:将LLM视为构建系统的平台这一观点可能引发更多关于LLM应用架构的讨论。
  • 潜在影响:有助于推动LLM在系统构建中的应用方式变革,对人工智能相关领域的技术发展方向可能产生影响,促使人们从新的视角看待LLM的角色和价值。

详细内容:

标题:关于大型语言模型(LLM)工作原理的热门讨论

在 Reddit 上,一则关于大型语言模型(LLM)工作原理的帖子引发了热烈讨论。该帖子提出了一系列关于 LLM 输入、输出、上下文处理以及提示模板等方面的思考,获得了众多关注和大量评论。

帖子主要探讨了 LLM 是不是一个输入为字符串令牌,输出为单个令牌的函数,并对其工作流程进行了分析。同时还思考了提示模板对于 LLM 的意义,以及 LLM 在处理输入和生成输出过程中的一些特性。

讨论焦点与观点分析:

有人认为 LLM 技术上输出的是下一个令牌的概率分布,然后对其进行采样,就像在代表这些概率的饼图上扔飞镖。也有人指出,如果输出是图像或声音样本的嵌入,可能不需要采样过程,可直接解码或编码。还有人提到,通常情况下,LLM 输出的概率分布是通过完全独立的线性层获得的,而非复用输入嵌入字典。

对于 LLM 到底是确定性还是随机性的问题,各方观点激烈交锋。有人认为 LLM 本质上是确定性的,给定相同输入会输出相同的令牌分布,而有人则强调 LLM 输出的是概率分布,采样过程是其核心特征之一,温度等参数可以调整概率分布。

有人将 LLM 比作 CPU,认为它不是最终目标,而是构建系统的平台。还有人认为在注重正确性而非创造性的情况下,采用贪心算法选择最可能的令牌并非完全不可取。

讨论中的共识在于大家都在试图深入理解 LLM 的工作机制及其复杂性。

特别有见地的观点包括对于 LLM 随机性和确定性的深入分析,以及将 LLM 与实际应用场景相结合的思考。

总之,这次关于 LLM 工作原理的讨论充分展示了其技术的复杂性和多样性,也为我们更深入理解这一领域提供了丰富的视角。