如果这个问题很愚蠢,请原谅,但为什么LLM有输出令牌限制,而且通常远低于它们的最大上下文长度?
例如,GPT-4o的上下文长度为128k,输出令牌限制为4096。Llama3.1的上下文长度为128k,输出令牌限制为2048。
LLM不就是一堆下一个令牌预测器吗?为什么LLM不能继续将刚刚说的内容作为上下文,并持续进行直到达到上下文长度?
有没有什么技术可以增加它们?
讨论总结
本次讨论主要围绕大型语言模型(LLMs)的输出限制问题展开。发帖人提出了为什么LLMs的输出令牌限制通常远低于其上下文长度的疑问,并举例说明了GPT-4和Llama3.1的上下文长度和输出限制。评论中,多位用户解释了这一限制的原因,包括计算成本、训练样本大小以及在本地推理时不受此限制的情况。讨论还涉及了是否有技术可以增加这些限制,以及模型在处理长上下文文档时可能遇到的问题。总体而言,讨论涉及了技术细节、模型行为和潜在的解决方案,情感倾向较为中性,主要集中在技术讨论和问题解决上。
主要观点
- 👍 输出限制与计算成本有关
- 支持理由:推断输出比输入更计算密集,因此提供商限制输出以降低成本。
- 反对声音:无
- 🔥 输出限制与训练样本大小有关
- 正方观点:模型会学习输出与训练样本大小相符的令牌块。
- 反方观点:无
- 💡 输出限制与上下文长度有关
- 解释:输出内容同样被视为输入,这可能是限制输出长度的原因之一。
- 👍 输出限制与模型行为有关
- 支持理由:模型在完成任务后会预测停止的时机,过长的输出可能导致模型重复相同的内容。
- 反对声音:无
- 🔥 输出限制与云服务有关
- 正方观点:云服务提供商限制输出时间以避免过长的单个输出。
- 反方观点:无
金句与有趣评论
- “😂 If you tell them "answer what is 5 plus 5" Do you expect them to write 5 plus 5 is 10 5 plus 5 is 10 5 plus 5 is 10 a million times?”
- 亮点:用幽默的方式解释了输出限制的必要性。
- “🤔 I’d assume this is to prevent runoff generations from eating your credits.”
- 亮点:从用户角度出发,解释了输出限制的经济原因。
- “👀 LLMs don’t treat the output the same way as the input context.”
- 亮点:指出了LLMs在处理输出时的特殊行为。
情感分析
讨论的总体情感倾向较为中性,主要集中在技术讨论和问题解决上。主要分歧点在于对输出限制原因的理解,包括计算成本、训练样本大小、模型行为和云服务等因素。可能的原因包括模型设计、训练数据分布和用户需求等。
趋势与预测
- 新兴话题:LongLoRA等技术可能是解决输出限制的一种方法。
- 潜在影响:对相关领域或社会的潜在影响包括提高模型效率、降低成本和改善用户体验。
详细内容:
《探究 LLMs 输出限制之谜》
在 Reddit 上,一则题为“为什么 LLMs 有输出限制?”的帖子引发了热烈讨论。该帖子提出了一系列疑问,例如为何 LLMs 的输出令牌有限,且通常远少于其上下文长度,像 GPT-4o 上下文长度达 128k 但输出令牌限制为 4096,Llama3.1 上下文长度为 128k 但输出令牌限制为 2048。还质疑为何 LLMs 不能持续以之前所说内容作为上下文一直生成直到达到上下文长度,并询问是否有增加输出的技术。此帖获得了众多关注,评论数众多,主要引发了关于输出限制原因的多方面探讨。
有人认为,强制增加 LLM 的输出可能会导致重复无意义的内容。也有人指出,如果在本地运行,输出可以达到上下文长度,但生成的令牌会计入上下文长度。还有观点认为大多数模型没有在异常长输出的数据上进行训练。有人提到输出限制是由提供者人为设定的,目的是控制成本,因为推断输出比摄取输入的计算成本高得多。
有用户表示输出限制仅受总体上下文大小限制,但存在一个问题,即输出令牌限制会从实际可用于先前数据的上下文长度中预留和扣除。也有人认为模型训练时的样本大小决定了输出限制,尝试超出常规的上下文窗口会导致推理结果偏离轨道。还有人提出模型预测何时完成任务,输出过长容易偏离主题,输入不长导致输出也可能不长等观点。
总之,关于 LLMs 输出限制的原因众说纷纭,包括节省计算资源、上下文长度限制、避免输出偏离主题、未在超长输出数据上训练、人为设定控制成本等。但这一话题的探讨仍在继续,为我们更深入理解 LLMs 的工作机制提供了丰富的视角。
感谢您的耐心阅读!来选个表情,或者留个评论吧!