原贴链接

嗨,伙计们。我正在试验一个langgraph多智能体模型,我用GPT - 4o对其进行测试,一切运行良好,结果相当令人印象深刻。之后,我用ollama和llama3.1:70b - instruct - q8_0对其进行测试,然而,结果非常令人失望,它不能正确构建单个工具调用,完全忽略我给它们的信息,忘记函数调用的参数,以及其他类似的愚蠢错误。我的问题是,你们也有这样的经历吗?我担心我做错了什么,因为总体上,我读到的关于llama3的都是正面的信息……

讨论总结

原帖作者表示在测试langgraph多智能体模型时,llama 3.1 70B在工具使用方面表现差,怀疑自己操作有误并询问他人是否有相同经历。评论者从多个角度进行回应,包括提及支持llama工具调用的框架和模板的重要性、推荐查看函数调用排行榜和其他模型、探讨可能导致问题的原因如未设置上下文大小或量化过程破坏准确性等,整体讨论氛围积极且专注于解决原帖提出的问题。

主要观点

  1. 👍 强调使用支持llama工具调用的框架和模板的重要性
    • 支持理由:原帖中llama 3.1 70B在工具使用方面表现糟糕,可能是没有使用合适的框架和模板
    • 反对声音:无
  2. 🔥 推荐查看伯克利函数调用排行榜并考虑特定指标
    • 正方观点:可通过排行榜了解模型情况,特定指标有助于全面评估
    • 反方观点:有评论者认为排行榜不准确
  3. 💡 怀疑原帖实验中未设置上下文大小而使用默认值可能是导致问题的原因
    • 解释:如果未设置上下文大小,可能会使模型在工具使用时表现不佳
  4. 💡 认为langchain/graph基于特定提示且多层抽象,对LLM社区有害
    • 解释:这种特性可能导致其不能直接用于其他模型,如在ollama和llama3.1测试失败
  5. 💡 自己使用Llama 3.1未遇到原帖作者的情况且8b版本在调用工具方面表现较好
    • 解释:不同的使用情况和版本可能导致不同的工具调用结果

金句与有趣评论

  1. “🤔 Are you using an inference framework and tool template that supports llama tool calling, or just trying to prompt engineer it into doing tool calling like it’s 2023?”
    • 亮点:直接指出原帖作者可能在框架和模板使用上存在问题,为解决问题提供方向
  2. “👀 Take a look at the Berkeley Function Calling Leaderboard: https://gorilla.cs.berkeley.edu/leaderboard.html"
    • 亮点:为原帖作者提供了一个可参考的排行榜资源
  3. “😂 langchain/graph/whatever is based on "it works on my machine but only if you use oai gpts" prompts hidden under 5 levels of abstraction.”
    • 亮点:形象地指出langchain/graph存在的问题
  4. “💡 我发现3.1 70b是大多数任务中最好的开源模型。”
    • 亮点:与原帖中llama 3.1 70B在工具使用方面表现糟糕形成对比,表达不同观点
  5. “🤔 那是因为llama 3.1 70B没有针对那种使用场景进行训练。”
    • 亮点:为llama 3.1 70B在工具使用表现差提供了一种可能的原因

情感分析

总体情感倾向较为中性客观。主要分歧点在于对llama 3.1 70B的评价以及某些工具或框架(如langchain)的看法。可能的原因是不同用户有不同的使用场景和体验,以及对模型、框架等技术的理解和期望不同。

趋势与预测

  • 新兴话题:未针对使用场景训练可能成为后续探讨llama 3.1 70B工具使用问题的一个新方向,还有可能进一步探讨不同模型在工具调用方面的性价比。
  • 潜在影响:如果能够确定llama 3.1 70B在工具使用方面表现糟糕的真正原因,可能会对其在相关领域的应用产生影响,如促使开发者改进训练方式或者使用者调整使用策略;对模型评估相关的领域也可能促使其更加完善评估指标等。

详细内容:

标题:Llama 3.1 70B 在工具使用方面的表现引发激烈讨论

在Reddit上,一篇关于“Llama 3.1 70B 在工具使用方面表现糟糕”的帖子引起了广泛关注。该帖称,在对langgraph多代理模型进行测试时,与GPT-4o的测试结果良好,但Llama 3.1 70B的表现却令人极度失望,无法正确构建工具调用,忽略给定信息,忘记函数调用参数等。此帖获得了众多评论和讨论。

讨论焦点主要集中在以下几个方面: 有人指出,使用的推理框架和工具模板是否支持Llama工具调用很关键。有人分享了自己使用3.1 70B和“like it’s 2023”方法通过调用llama.cpp和llama-server的经历,认为后一种方法听起来先进但有些复杂。还有人表示使用langgraph “OllamaChat”接口,并会尝试按照他人建议使用vLLM,因为已知langgraph与OpenAI模型配合完美,希望问题出在langgraph而非Llama。

有人提到可以参考伯克利函数调用排行榜:https://gorilla.cs.berkeley.edu/leaderboard.html ,并指出一些具有许可优势的小型模型,如Qwen2.5-7B。

也有人怀疑是langchain/graph等的抽象层次过多导致与其他模型不兼容。有人认为Llama 3.1 70B不是针对特定工具使用案例进行训练的。

有人分享了自己使用Ollama连接Llama 3.1 8B在Python中的情况,工具调用效果不错,但存在调用过度的问题。还有人认为3.1 70B是最好的开放模型,也有人觉得它在工具使用方面表现糟糕。

有人指出可能是默认的内存设置太短导致问题,也有人提到使用特定的工具调用模板或框架可能会改善情况。

总的来说,关于Llama 3.1 70B在工具使用方面的表现,大家观点不一,存在诸多争议和不同的解决建议。但通过这些讨论,为进一步优化和理解Llama 3.1 70B的工具使用性能提供了丰富的思路和方向。