原贴链接

过去几个月我一直在使用人工智能处理和精简数据集。我的工作流程包括从多个不同数据源获取语言特征和术语。我一直在使用Llama 3.1 70B、Nemotron、Qwen 2.5 72B，最近还使用了Qwen 2.5 Coder 128k上下文（感谢Unsloth！）。这些都能正常工作，我的数据处理进展顺利。今晚，我决定尝试Supernova Medius、Phi 3 Medium和Phi 3.5 Mini。它们在我的用例中都运行良好。它们都能处理128k上下文，而且运行速度比我之前使用的大型模型快得多。我已经反复检查了它们与大型模型的对比情况。我的工作性质使我能快速识别错误，一切都很完美。我真希望几个月前就知道这些，那样我现在就已经完成数据处理了。仅仅因为某个模型更大更智能，并不意味着你总是需要使用它。我现在处理数据的速度是昨天的3到4倍。

讨论总结

原帖作者讲述自己使用AI处理和修剪数据集时发现，不需要总是使用更大的模型，一些小模型就能满足需求且运行速度更快。评论区主要围绕模型选择展开讨论，在文本分类、创意写作、机器翻译等不同任务场景下，比较大模型和小模型的适用性、效率，分享各自使用不同模型的经验和观点，整体氛围较为积极，有多种不同观点的交流和碰撞。

主要观点

👍 在文本分类任务中，不一定要使用LLM
- 支持理由：使用预训练的文本分类模型或者嵌入模型结合基本分类模型效率更高，在处理大量数据分类任务时，简单分类器可能比LLM更高效。
- 反对声音：在某些复杂的文本分类任务中，LLM的效果可能更好，在处理多语言或更具挑战性的文本时，LLM可能表现更优，在一些场景下，LLM的零 - 少样本学习能力更有用。
🔥 很多人因“错失恐惧症”过度追求70B等大模型
- 正方观点：这是一种普遍现象，很多人总认为只有大模型才能满足需求。
- 反方观点：可以尝试不同的模型，不过度比较，像8B模型可能对很多人来说表现良好。
💡 在创意写作场景下，70 - 72B类模型能满足需求
- 解释：模型是创意生成工具，最终作品经过自己加工后不再像是LLM直接输出，不同量化版本的模型在不同需求场景下表现不同。
💡 推测性解码在“diy实验者”层面使用增多与低端推理引擎支持有关
- 解释：低端流行推理引擎原生支持推测性解码，促使更多人使用。
- 延伸：大模型和小模型结合运行并获取小模型推理速度是一种优化方式，但小模型100%可用是最佳情况。
💡 小模型在特定任务（如描述图像）中有良好表现
- 解释：以Tiny florence在描述图像方面表现良好为例，说明在一些任务中，小模型能够很好地胜任，无需追求大型模型。

金句与有趣评论

“😂 You do NOT need an LLM to do things like classification. Loading Llama 3.3 and asking it "Is the following comment toxic?" is silly. Use a pretrained text classification model for that, or, if your classification task is complex, use an embedding model to create embedding vectors, and train a basic classification model on those.”
- 亮点：形象地指出在文本分类任务中，不必要使用LLM，提供了更高效的替代方案。
“🤔 I’ve needed a classifier that would identify texts mentioning red line statements. I annotated a lot of texts myself and then trained a spacy model. The results were underwhelming. Then I tried to do the same with LLMs and it worked much better.”
- 亮点：通过自身实例说明在某些文本分类任务中，LLM比其他模型效果更好。
“👀 I would have agreed if I didn’t had literal dogshit results on sentiment classification using a BERT model or I don’t remember what I’ve used.”
- 亮点：以诙谐的语言表达在情感分类任务中，使用某些模型效果不佳，不认同在这种情况下不使用LLM的观点。
“😂 I’m trying. It’s a bit of a slog but should be faster now!”
- 亮点：原帖作者积极的态度，表示虽然工作有些艰难，但现在应该会更快。
“🤔 I think many people will be shocked at how good the 8B model can be for them.”
- 亮点：提出8B模型可能会给很多人带来惊喜，打破人们对大模型的过度追求。

情感分析

总体情感倾向为积极正面。主要分歧点在于不同任务场景下大模型和小模型的适用性，例如在文本分类任务、创意写作、数据处理等方面，大模型和小模型各有优势。产生分歧的原因是不同用户的使用场景、需求以及对模型性能的期望不同。例如，处理多语言或复杂文本时可能更倾向于大模型，而简单的文本分类任务可能小模型就足够。

趋势与预测

新兴话题：可能会引发关于如何根据具体使用场景更好地选择模型，以及如何优化模型组合（如大模型和小模型结合）的后续讨论。
潜在影响：对人工智能领域的模型开发和使用有一定影响，促使开发者和使用者更加理性地对待不同规模的模型，避免资源浪费，提高工作效率。

详细内容：

标题：关于选择合适模型的热门讨论

在 Reddit 上，有一个引发热烈讨论的帖子，主题是“Reminder not to use bigger models than you need”。该帖子作者讲述了自己在过去几个月使用 AI 处理和修剪数据集的经历，提及使用过多种模型，如 Llama 3.1 70B、Nemotron、Qwen 2.5 72B 等，最近尝试了一些较小的模型，发现它们在自己的用例中表现出色，运行速度比之前的大模型快很多，感叹要是早知道这点，数据处理工作早就完成了。此帖获得了众多关注，引发了大量讨论。

讨论的焦点主要集中在选择合适模型的问题上。有人认为，在很多情况下不需要使用生成式 LLM 来做分类任务，使用预训练的文本分类模型或嵌入模型效率更高、准确性更好。比如，有人提到使用预训练的文本分类模型，对于像“Is the following comment toxic?”这样的简单分类任务，加载 Llama 3.3 是不明智的。但也有人持不同意见，认为对于复杂的文本分类任务，LLM 表现更好，能获取更多语义信息，且在处理其他语言时优势明显。

有用户分享道：“Before LLMs, I needed a classifier that would identify texts mentioning red line statements. I annotated a lot of texts myself and then trained a spacy model. The results were underwhelming. Then I tried to do the same with LLMs and it worked much better. And I could not only identify if the text contained those statements, but also to extract relevant text span within the text, extract the source and the target, identify specific sentences with the treat and the consequence, add interpretation and then apply a taxonomy to the text. Although the process is slow, it’s much faster than hiring a human analyst to read the texts and annotate them in a very specific way. For data annotations tasks LLMs are nearly perfect from my experience. I guess one could try training a traditional spacy model based on these annotations that I got, but I don’t think it’s going to work as good as LLMs”

同时，也有人指出，对于不同规模的模型选择，要考虑任务的复杂性和数据量。对于简单的分类任务，较小的模型就可以胜任，而处理大量数据时，更简单的分类器可能效率更高。还有人提到，对于复杂分类任务，使用 LLM 更便宜且可靠，还能灵活添加新类别。

这场讨论中的共识在于，选择模型应根据具体需求和任务来决定，不能盲目追求大模型。特别有见地的观点是，要不断尝试和实验，找到最适合自己工作的模型。

总之，通过这场讨论，让我们更深入地思考如何在众多模型中做出明智的选择，以提高工作效率和效果。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#