如何提高分类任务的速度？我应该放弃Ollama和LlamaIndex吗？

原贴链接

我正在使用Ollama和LlamaIndex进行Llama3.1-70b的分类任务。我选择Ollama和LlamaIndex是因为代码设置非常简单。我没有使用LlamaIndex进行RAG，只是调用了Ollama。代码设置非常容易，所以我能够将所有时间都花在提示工程和评估结果上。我已经在一系列任务上达到了目标准确率，并在成功完成的项目上节省了大量资金。这些项目通常在几个小时或一天左右完成。现在，我想优化速度，考虑到下一个项目的记录量，我的模型大约需要5-7天才能运行。我的数据非常敏感，这就是为什么我在本地运行所有内容，这是我职业生涯中最大的改变。

当我查看性能监视器时，我可以看到在处理记录时GPU达到100%，但我的CPU从未超过5%。我有一块A6000 ada GPU，配备2.5 GHz处理器和128 GB的RAM。我也猜测使用Ollama和LlamaIndex使我的过程过于缓慢。我对Ollama的唯一更改是模型文件，进行了一些参数调整（例如，top_k和temp）。

任何关于下一步该怎么做的建议都将非常感激。我是一个内容专家，有足够的编程知识来完成我的工作。所以，我不介意简化一些事情，尤其是在硬件问题上。

提前感谢。

讨论总结

本次讨论主要围绕如何提高分类任务的速度，参与者提出了多种优化建议，包括使用更高效的模型、优化CPU使用、采用并行处理和推测性解码等技术。讨论中，GPU的高利用率和CPU的低利用率成为关注的焦点，同时数据敏感性导致的本地运行需求也影响了优化策略的选择。

主要观点

👍 使用llama-cpp-python可能比Ollama和LlamaIndex更有效
- 支持理由：评论者认为llama-cpp-python可以直接优化性能，避免中间层的效率损失。
- 反对声音：无明确反对声音，但需考虑作者的编程能力。
🔥 使用vllm或sglang等工具可以提高处理速度
- 正方观点：这些工具能够同时处理多个请求，提高吞吐量。
- 反方观点：无明确反对声音，但需考虑工具的兼容性和稳定性。
💡 尝试使用推测性解码来提高模型速度
- 解释：推测性解码可以使模型运行得更快，但需确认Ollama是否支持。

金句与有趣评论

“😂 I would just use llama-cpp-python, there’s no point to ollama, or llama-index IMO.”
- 亮点：直接指出工具的冗余性，简洁有力。
“🤔 You could use something like vllm or sglang which would allow you to submit multiple requests at once.”
- 亮点：提出了一种新的并行处理思路。
“👀 Try speculative decoding, it will make the model much faster.”
- 亮点：介绍了一种可能大幅提升速度的技术。

情感分析

讨论的总体情感倾向较为积极，多数评论者提供了具体的优化建议和技术方案。主要分歧点在于选择哪种工具或技术最为有效，这可能与不同评论者的经验和偏好有关。

趋势与预测

新兴话题：推测性解码和模型量化可能是未来讨论的热点。
潜在影响：优化分类任务的速度将直接影响相关项目的成本和效率，对数据科学领域具有重要意义。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

讨论总结

主要观点

金句与有趣评论

情感分析

趋势与预测