原贴链接

大家好,我是Merve,我在Hugging Face的新代理库smolagents工作。我们最近发现很多人对代理系统持怀疑态度,所以我们将我们的CodeAgents(以Python代码块编写其动作/工具调用的代理)与普通LLM调用进行了基准测试。意外的是:与普通LLM相比,代理设置轻松带来了40个百分点的改进。这个惊人的分数提升是有道理的,让我们以这个SimpleQA问题为例:‘在2022年男足世界杯荷兰对阵阿根廷的比赛中,哪个荷兰球员打进了一个运动战进球?’如果我自己来回答这个问题,使用网络搜索工具肯定比仅靠我的普通知识回答得更好(这是吴恩达在红杉的一次精彩演讲中提出的观点)。这里每个基准测试是原始基准测试中约50个问题的子样本。可在此处找到整个基准测试:https://github.com/huggingface/smolagents/blob/main/examples/benchmark.ipynb。

讨论总结

原帖分享了Hugging Face的新代理库smolagents的Agentic setups在基准测试中比vanilla LLMs性能好很多。评论者们从多方面展开讨论,包括比较是否公平(涉及基准测试和上下文缺失的问题)、模型性能(如llama 3 8b未取得更好分数等)、框架的功能(如是否支持GUI等)、框架选择(从开发者角度等)、对Agentic setups本身的好奇与质疑等,整体氛围既有理性探讨,也有个别否定评价。

主要观点

  1. 👍 Agentic setups与vanilla LLM calls比较不公平
    • 支持理由:很多人在进行vanilla LLM calls时不提供必要上下文,构建时本身就不合理,所以Agentic setups能胜过并不令人惊讶。
    • 反对声音:无
  2. 🔥 原帖应使用更好的基线进行比较
    • 正方观点:用带有搜索引擎的大型语言模型(LLM)与没有搜索引擎的同一LLM进行比较不合理。
    • 反方观点:无
  3. 💡 人们对代理系统持怀疑态度是因为原帖这样的情况
    • 解释:原帖比较方式可能存在给予一方不公平优势的情况,导致人们怀疑。
  4. 🤔 代理中的系统提示可能起到很大作用
    • 解释:代理有系统提示,这可能让其在比较中更占优势。
  5. 😕 框架可能是入门级内容,不是成熟产品
    • 解释:测试效果不佳,处理多元查询能力弱,被认为是入门级的学习资源项目。

金句与有趣评论

  1. “😂 It’s not surprising that it beats a vanilla LLM call, but who’s building vanilla LLM calls without providing necessary context?”
    • 亮点:指出Agentic setups与vanilla LLM calls比较时,vanilla LLM calls构建时缺少上下文是个问题。
  2. “🤔 I’m sure there are a ton of people not providing more context to a query.”
    • 亮点:强调很多人在查询时不提供更多上下文这一普遍现象。
  3. “👀 People are skeptical of agents because of posts like this.”
    • 亮点:直接点明人们对代理系统持怀疑态度与原帖这类情况有关。
  4. “😉 Overall seems to be more sane than some of the other convoluted frameworks out there.”
    • 亮点:对框架做出了积极评价,认为它比其他复杂框架更合理。
  5. “🤨 This seems like a poor example to me.”
    • 亮点:直接对原帖中的举例表示质疑。

情感分析

总体情感倾向较为复杂。一方面有对Agentic setups和框架的积极评价,如认为框架比其他复杂框架更合理;另一方面存在较多质疑的声音,如认为原帖比较不公平、基线选择不佳等。主要分歧点在于Agentic setups是否真的比vanilla LLMs有很大优势以及相关比较是否公平合理。可能的原因是不同评论者的立场和关注点不同,有的从技术比较的公平性出发,有的从实际使用体验出发。

趋势与预测

  • 新兴话题:框架对创意写作方面的影响、框架在DIY项目中的潜力。
  • 潜在影响:如果框架在创意写作等方面能有改进,可能会影响到自然语言处理在创意内容生成领域的应用;如果在DIY项目中有潜力,可能会吸引更多个人开发者参与到相关项目开发中。

详细内容:

《关于 Agentic 系统与 Vanilla LLM 的热门讨论》

在 Reddit 上,一篇题为“Agentic setups beat vanilla LLMs by a huge margin 📈”的帖子引发了热烈讨论。该帖子由 Merve 发布,介绍了其在 Hugging Face 新的 agents 库 smolagents 方面的工作,并指出 agentic 系统相对于 vanilla LLM 有高达 40 个百分点的性能提升。此贴获得了众多关注,评论众多。

讨论的焦点主要集中在以下几个方面: 有人认为这种对比不公平,因为很多 vanilla LLM 调用没有提供必要的上下文。比如有人说:“这不是真正公平的比较,在我看来(IMO)”。 也有人分享个人经历,称在教导典型的办公室员工时,大多数用户都没有提供足够的上下文,只是触及了 LLM 技能的表面。 还有观点认为,基准或类似评估应具备“公平性”,否则会使工作变得不科学和不可用。 同时,也有人对框架的功能和适用性提出了疑问,如是否支持 gui/browser 自动化等。

在讨论中,存在一些共识。比如大家普遍认为上下文对于 LLM 的表现至关重要。

特别有见地的观点如:“基准测试应衡量相对于标准的改进,而不是随意设定的基线。这样才能确保结果具有可重复性和可比性。”

不过,讨论中也存在争议。比如关于如何定义一个合理且有意义的基线,以及 agentic 系统的实际应用效果和成本等问题,各方看法不一。

总之,这场关于 agentic 系统与 vanilla LLM 的讨论,充分展现了大家对于人工智能技术发展的关注和思考。