我正在使用Ollama和LlamaIndex进行Llama3.1-70b的分类任务。我选择Ollama和LlamaIndex是因为代码设置非常简单。我没有使用LlamaIndex进行RAG,只是调用了Ollama。代码设置非常容易,所以我能够将所有时间都花在提示工程和评估结果上。我已经在一系列任务上达到了目标准确率,并在成功完成的项目上节省了大量资金。这些项目通常在几个小时或一天左右完成。现在,我想优化速度,考虑到下一个项目的记录量,我的模型大约需要5-7天才能运行。我的数据非常敏感,这就是为什么我在本地运行所有内容,这是我职业生涯中最大的改变。
当我查看性能监视器时,我可以看到在处理记录时GPU达到100%,但我的CPU从未超过5%。我有一块A6000 ada GPU,配备2.5 GHz处理器和128 GB的RAM。我也猜测使用Ollama和LlamaIndex使我的过程过于缓慢。我对Ollama的唯一更改是模型文件,进行了一些参数调整(例如,top_k和temp)。
任何关于下一步该怎么做的建议都将非常感激。我是一个内容专家,有足够的编程知识来完成我的工作。所以,我不介意简化一些事情,尤其是在硬件问题上。
提前感谢。
讨论总结
本次讨论主要围绕如何提高分类任务的速度,参与者提出了多种优化建议,包括使用更高效的模型、优化CPU使用、采用并行处理和推测性解码等技术。讨论中,GPU的高利用率和CPU的低利用率成为关注的焦点,同时数据敏感性导致的本地运行需求也影响了优化策略的选择。
主要观点
- 👍 使用llama-cpp-python可能比Ollama和LlamaIndex更有效
- 支持理由:评论者认为llama-cpp-python可以直接优化性能,避免中间层的效率损失。
- 反对声音:无明确反对声音,但需考虑作者的编程能力。
- 🔥 使用vllm或sglang等工具可以提高处理速度
- 正方观点:这些工具能够同时处理多个请求,提高吞吐量。
- 反方观点:无明确反对声音,但需考虑工具的兼容性和稳定性。
- 💡 尝试使用推测性解码来提高模型速度
- 解释:推测性解码可以使模型运行得更快,但需确认Ollama是否支持。
金句与有趣评论
- “😂 I would just use llama-cpp-python, there’s no point to ollama, or llama-index IMO.”
- 亮点:直接指出工具的冗余性,简洁有力。
- “🤔 You could use something like vllm or sglang which would allow you to submit multiple requests at once.”
- 亮点:提出了一种新的并行处理思路。
- “👀 Try speculative decoding, it will make the model much faster.”
- 亮点:介绍了一种可能大幅提升速度的技术。
情感分析
讨论的总体情感倾向较为积极,多数评论者提供了具体的优化建议和技术方案。主要分歧点在于选择哪种工具或技术最为有效,这可能与不同评论者的经验和偏好有关。
趋势与预测
- 新兴话题:推测性解码和模型量化可能是未来讨论的热点。
- 潜在影响:优化分类任务的速度将直接影响相关项目的成本和效率,对数据科学领域具有重要意义。
感谢您的耐心阅读!来选个表情,或者留个评论吧!