原贴链接

我正在使用Ollama和LlamaIndex进行Llama3.1-70b的分类任务。我选择Ollama和LlamaIndex是因为代码设置非常简单。我没有使用LlamaIndex进行RAG,只是调用了Ollama。代码设置非常容易,所以我能够将所有时间都花在提示工程和评估结果上。我已经在一系列任务上达到了目标准确率,并在成功完成的项目上节省了大量资金。这些项目通常在几个小时或一天左右完成。现在,我想优化速度,考虑到下一个项目的记录量,我的模型大约需要5-7天才能运行。我的数据非常敏感,这就是为什么我在本地运行所有内容,这是我职业生涯中最大的改变。

当我查看性能监视器时,我可以看到在处理记录时GPU达到100%,但我的CPU从未超过5%。我有一块A6000 ada GPU,配备2.5 GHz处理器和128 GB的RAM。我也猜测使用Ollama和LlamaIndex使我的过程过于缓慢。我对Ollama的唯一更改是模型文件,进行了一些参数调整(例如,top_k和temp)。

任何关于下一步该怎么做的建议都将非常感激。我是一个内容专家,有足够的编程知识来完成我的工作。所以,我不介意简化一些事情,尤其是在硬件问题上。

提前感谢。

讨论总结

本次讨论主要围绕如何提高分类任务的速度,参与者提出了多种优化建议,包括使用更高效的模型、优化CPU使用、采用并行处理和推测性解码等技术。讨论中,GPU的高利用率和CPU的低利用率成为关注的焦点,同时数据敏感性导致的本地运行需求也影响了优化策略的选择。

主要观点

  1. 👍 使用llama-cpp-python可能比Ollama和LlamaIndex更有效
    • 支持理由:评论者认为llama-cpp-python可以直接优化性能,避免中间层的效率损失。
    • 反对声音:无明确反对声音,但需考虑作者的编程能力。
  2. 🔥 使用vllm或sglang等工具可以提高处理速度
    • 正方观点:这些工具能够同时处理多个请求,提高吞吐量。
    • 反方观点:无明确反对声音,但需考虑工具的兼容性和稳定性。
  3. 💡 尝试使用推测性解码来提高模型速度
    • 解释:推测性解码可以使模型运行得更快,但需确认Ollama是否支持。

金句与有趣评论

  1. “😂 I would just use llama-cpp-python, there’s no point to ollama, or llama-index IMO.”
    • 亮点:直接指出工具的冗余性,简洁有力。
  2. “🤔 You could use something like vllm or sglang which would allow you to submit multiple requests at once.”
    • 亮点:提出了一种新的并行处理思路。
  3. “👀 Try speculative decoding, it will make the model much faster.”
    • 亮点:介绍了一种可能大幅提升速度的技术。

情感分析

讨论的总体情感倾向较为积极,多数评论者提供了具体的优化建议和技术方案。主要分歧点在于选择哪种工具或技术最为有效,这可能与不同评论者的经验和偏好有关。

趋势与预测

  • 新兴话题:推测性解码和模型量化可能是未来讨论的热点。
  • 潜在影响:优化分类任务的速度将直接影响相关项目的成本和效率,对数据科学领域具有重要意义。