可查看https://huggingface.co/spaces/gaia - benchmark/leaderboard

讨论总结

这个讨论围绕GAIA基准测试展开。其中包括代理技术相关的如autogen存在的问题、智能体日常使用的决策体验和搜索问题等技术层面内容；还涉及到学位与智能的关联讨论；也有对GAIA基准测试的信任质疑，包括是否存在作弊风险、诚信体系是否可靠；同时有人认为GAIA基准测试无意义，远离实际用例，但也有人指出其对企业和数据科学有意义等内容，整体讨论氛围理性，大家各抒己见。

主要观点

👍 autogen在控制终止等方面设计不佳
- 支持理由：如在控制终止方面没有简单有效的方式，在控制可执行与不可执行代码块较难等。
- 反对声音：无
🔥 智能体日常存在过度搜索的问题
- 正方观点：如日常使用时对每个提问都会进行搜索，不符合预期。
- 反方观点：无
💡 学位会使视野变窄
- 正方观点：未给出太多正面解释，仅表达此观点。
- 反方观点：有人从GAIA基准测试示例问题角度认为学位有一定作用。
💡 对GAIA基准测试的诚信体系表示怀疑
- 正方观点：自行上传结果且被信任是由智能体完成，有作弊可能。
- 反方观点：无
💡 认为GAIA基准测试无意义
- 正方观点：测试远离现实世界实际用例。
- 反方观点：有公司将其用于企业目的和数据科学目的，所以称无意义不合理。

金句与有趣评论

“😂 Main issues with autogen: No easy way to really control termination. Letting the LLM decide to terminate with a string is a poor design”
- 亮点：直接指出autogen在控制终止方面的糟糕设计。
“🤔 Such_Advantage_6949：Issue i have is for everyday agent, where u expect it to perform a search only when it needs to for example, but it will always do search for every query i ask it”
- 亮点：生动描述了智能体日常搜索过度的问题。
“👀 If you have read the dataset you can confidently say the benchmark is bullshit.”
- 亮点：表达对GAIA基准测试非常负面的看法。
“🤔 ForsookComparison：Normally I’d agree with the original commenter that degrees have next to no correlation with intelligence - but if you look at some example questions from the GAIA benchmark they boil down to "fetch info, massage it in an unusual way, regurgitate it the right way" -> which is basically my whole experience with higher education (be it specialized or general ed).”
- 亮点：理性分析学位与智力关联以及GAIA基准测试中的情况。
“😉 GAIA is heavy on deep research (about 70% search related), and my and other companies use the agent for enterprise purposes for that and data science purposes.”
- 亮点：阐述GAIA基准测试在企业和数据科学方面的意义。

情感分析

总体情感倾向比较中性，有对GAIA基准测试的质疑和否定，但也有对其肯定和理性分析的观点。主要分歧点在于GAIA基准测试是否有意义、学位与智能的关联以及代理技术的问题。可能的原因是大家来自不同的背景，有不同的使用体验和思考角度，如开发人员会更关注技术实现的问题，而使用者可能更关注实际效果等。

趋势与预测

新兴话题：关于如何改进GAIA基准测试或者其他类似测试以使其更合理、更符合实际需求。
潜在影响：如果对GAIA基准测试的信任问题得不到解决或者测试方式不改进，可能影响其在企业、数据科学等领域的应用推广；如果在学位与智能关联方面有更多研究和讨论，可能影响社会对学位价值的认知。

详细内容：

标题：关于 GAIA 基准中代理性能的热门讨论

近日，Reddit 上一篇关于“Top Agent 仅在 GAIA 基准上距离拥有学位的人类还有 27%的差距”的帖子引发了热烈讨论。该帖子提供了相关链接https://huggingface.co/spaces/gaia-benchmark/leaderboard ，获得了众多关注和大量评论。

讨论的焦点主要集中在代理构建的过程、代码优先与函数调用的优劣、测试的可靠性以及实际应用等方面。

在代理构建过程方面，有人作为 h2oGPT OSS 项目的主要创建者分享了经验，如使用和修改 autogen 等代理库的感受，指出其存在的问题并提出了自己的解决方案。同时，也有人询问了相关的提示方法和未来代理应用的进步方向。

关于代码优先和函数调用，有人认为代码优先的代理具有更大的灵活性，但也有人担心会带来更高的延迟。例如，有人提到假设代理必须调用 3 个工具才能得到结果，函数调用可能需要单个响应 3 轮，而代码优先的代理可以在一轮中从所有 3 个工具获取信息。

在测试的可靠性方面，有人质疑测试是否完全基于诚信系统，担心存在作弊可能。也有人认为在当前的测试形式下，难以完全避免作弊问题，直到出现封闭的 LLM API 代理的 Kaggle 竞赛形式，信任问题仍将存在。

在实际应用方面，有人认为 GAIA 基准在深度研究方面有侧重，对于企业用途和数据科学目的有一定价值，但也有人抱怨测试与现实世界的实际使用案例差距较大。

有用户分享道：“作为 h2oGPT OSS 项目（h2oGPTe Agent 的主要来源）的主要创建者，欢迎提问。做这个项目后的一些想法：使用 autogen、crewai、langgraph 等代理库的人都会说，它们都有很大不足，但适合作为入门或学习的试验场。我从 autogen 开始并对其进行了大量修改。autogen 的主要问题：难以真正控制终止，让 LLM 用字符串决定终止是个糟糕的设计，我的终止方式是 LLM 不再生成可执行代码块；难以控制可执行与不可执行代码块；多代理并不比带工具的单代理好，通常更糟，我不理解人们为何对多代理如此兴奋，我认为工具范式更好；无法控制幻觉，成功的关键是不让 LLM 每轮执行超过 1 个可执行代码，否则它往往会编造内容；良好的提示工程很重要，要清楚系统提示包含的内容，每个工具要对下一步操作有好的建议。其他方面：未对模型进行微调，只是原始模型；没有特殊的数学技术和编排；GAIA 任务平均每项成本约 1 美元，简单任务约 0.25 美元，GAIA 测试 300 美元的话，基准运行约 300 美元，我们进行 3 - 5 次多数投票，所以乘以 3 到 5 倍。面临的困难：在有状态的网络搜索、表单填写、像在街景中移动鼠标平移图像等方面仍有问题，视觉敏锐度远不如人类，影响 GAIA 性能。做得最好的：我们的解决方案很擅长拒绝误报，多数投票时容易增强信号；我认为函数调用对我来说基本没用了，代码优先的代理是未来，很多人同意，也有人不同意，它是 LLM 一次性组合多个任意任务的方式，而函数调用必须通过显式编写的函数构建一切。”

还有用户提出：“代码优先的代理可能确实更好，但这不会以更高的延迟为代价吗？对于生产级别的聊天机器人，我觉得最小化 tft（可能是往返时间之类的概念，原文未明确）相当重要，让 LLM 为工具使用生成代码似乎会增加很多延迟。另外，在我的理解中，工具调用和函数调用或多或少是相同的事情，因为 LLM 通过调用一些包装在普通 Python 函数中的 API 来使用工具，但看起来你对这两个术语有不同的定义。”

此次讨论展现了大家对于代理在技术领域的不同看法和思考，为相关研究和应用提供了丰富的视角。但目前仍未达成完全一致的结论，未来还需要更多的实践和探索来验证各种观点的可行性。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#