原贴链接

大家好，我是Merve，我在Hugging Face的新代理库smolagents工作。我们最近发现很多人对代理系统持怀疑态度，所以我们将我们的CodeAgents（以Python代码块编写其动作/工具调用的代理）与普通LLM调用进行了基准测试。意外的是：与普通LLM相比，代理设置轻松带来了40个百分点的改进。这个惊人的分数提升是有道理的，让我们以这个SimpleQA问题为例：‘在2022年男足世界杯荷兰对阵阿根廷的比赛中，哪个荷兰球员打进了一个运动战进球？’如果我自己来回答这个问题，使用网络搜索工具肯定比仅靠我的普通知识回答得更好（这是吴恩达在红杉的一次精彩演讲中提出的观点）。这里每个基准测试是原始基准测试中约50个问题的子样本。可在此处找到整个基准测试：https://github.com/huggingface/smolagents/blob/main/examples/benchmark.ipynb。

讨论总结

原帖分享了Hugging Face的新代理库smolagents的Agentic setups在基准测试中比vanilla LLMs性能好很多。评论者们从多方面展开讨论，包括比较是否公平（涉及基准测试和上下文缺失的问题）、模型性能（如llama 3 8b未取得更好分数等）、框架的功能（如是否支持GUI等）、框架选择（从开发者角度等）、对Agentic setups本身的好奇与质疑等，整体氛围既有理性探讨，也有个别否定评价。

主要观点

👍 Agentic setups与vanilla LLM calls比较不公平
- 支持理由：很多人在进行vanilla LLM calls时不提供必要上下文，构建时本身就不合理，所以Agentic setups能胜过并不令人惊讶。
- 反对声音：无
🔥 原帖应使用更好的基线进行比较
- 正方观点：用带有搜索引擎的大型语言模型（LLM）与没有搜索引擎的同一LLM进行比较不合理。
- 反方观点：无
💡 人们对代理系统持怀疑态度是因为原帖这样的情况
- 解释：原帖比较方式可能存在给予一方不公平优势的情况，导致人们怀疑。
🤔 代理中的系统提示可能起到很大作用
- 解释：代理有系统提示，这可能让其在比较中更占优势。
😕 框架可能是入门级内容，不是成熟产品
- 解释：测试效果不佳，处理多元查询能力弱，被认为是入门级的学习资源项目。

金句与有趣评论

“😂 It’s not surprising that it beats a vanilla LLM call, but who’s building vanilla LLM calls without providing necessary context?”
- 亮点：指出Agentic setups与vanilla LLM calls比较时，vanilla LLM calls构建时缺少上下文是个问题。
“🤔 I’m sure there are a ton of people not providing more context to a query.”
- 亮点：强调很多人在查询时不提供更多上下文这一普遍现象。
“👀 People are skeptical of agents because of posts like this.”
- 亮点：直接点明人们对代理系统持怀疑态度与原帖这类情况有关。
“😉 Overall seems to be more sane than some of the other convoluted frameworks out there.”
- 亮点：对框架做出了积极评价，认为它比其他复杂框架更合理。
“🤨 This seems like a poor example to me.”
- 亮点：直接对原帖中的举例表示质疑。

情感分析

总体情感倾向较为复杂。一方面有对Agentic setups和框架的积极评价，如认为框架比其他复杂框架更合理；另一方面存在较多质疑的声音，如认为原帖比较不公平、基线选择不佳等。主要分歧点在于Agentic setups是否真的比vanilla LLMs有很大优势以及相关比较是否公平合理。可能的原因是不同评论者的立场和关注点不同，有的从技术比较的公平性出发，有的从实际使用体验出发。

趋势与预测

新兴话题：框架对创意写作方面的影响、框架在DIY项目中的潜力。
潜在影响：如果框架在创意写作等方面能有改进，可能会影响到自然语言处理在创意内容生成领域的应用；如果在DIY项目中有潜力，可能会吸引更多个人开发者参与到相关项目开发中。

详细内容：

《关于 Agentic 系统与 Vanilla LLM 的热门讨论》

在 Reddit 上，一篇题为“Agentic setups beat vanilla LLMs by a huge margin 📈”的帖子引发了热烈讨论。该帖子由 Merve 发布，介绍了其在 Hugging Face 新的 agents 库 smolagents 方面的工作，并指出 agentic 系统相对于 vanilla LLM 有高达 40 个百分点的性能提升。此贴获得了众多关注，评论众多。

讨论的焦点主要集中在以下几个方面：有人认为这种对比不公平，因为很多 vanilla LLM 调用没有提供必要的上下文。比如有人说：“这不是真正公平的比较，在我看来（IMO）”。也有人分享个人经历，称在教导典型的办公室员工时，大多数用户都没有提供足够的上下文，只是触及了 LLM 技能的表面。还有观点认为，基准或类似评估应具备“公平性”，否则会使工作变得不科学和不可用。同时，也有人对框架的功能和适用性提出了疑问，如是否支持 gui/browser 自动化等。

在讨论中，存在一些共识。比如大家普遍认为上下文对于 LLM 的表现至关重要。

特别有见地的观点如：“基准测试应衡量相对于标准的改进，而不是随意设定的基线。这样才能确保结果具有可重复性和可比性。”

不过，讨论中也存在争议。比如关于如何定义一个合理且有意义的基线，以及 agentic 系统的实际应用效果和成本等问题，各方看法不一。

总之，这场关于 agentic 系统与 vanilla LLM 的讨论，充分展现了大家对于人工智能技术发展的关注和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#