利用来自CompTIA模拟测试的421个问题构建了一个网络安全测试,并将这些问题输入多个大语言模型。这些不是特别刁钻的问题,但它们很棘手,通常需要你既有所了解又运用一些逻辑。第一名 - 01 - preview - 95.72%;第二名 - Claude - 3.5 - October - 92.92%;第三名 - O1 - mini - 92.87%;第四名 - Meta - Llama3.1 - 405b - FP8 - 92.69%;第五名 - GPT - 4o - 92.45%;第六名 - Mistral - Large - 123b - 2411 - FP16 92.40%;第七名 - Mistral - Large - 123b - 2407 - FP8 - 91.98%;第八名 - GPT - 4o - mini - 91.75%;第九名 - Qwen - 2.5 - 72b - FP8 - 90.09%;第十名 - Meta - Llama3.1 - 70b - FP8 - 89.15%;第十一名 - Hunyuan - Large - 389b - FP8 - 88.60%;第十二名 - Qwen2.5 - 7B - FP16 - 83.73%;第十三名 - marco - o1 - 7B - FP16 - 83.14%;第十四名 - Meta - Llama3.1 - 8b - FP16 - 81.37%;第十五名 - IBM - Granite - 3.0 - 8b - FP16 - 73.82%。大体和预期一样,但惊讶地发现marco - o1无法胜过基础模型(Qwen 7b)。Hunyuan - Large也有点令人失望,排在70b级别的模型之后。还有其他人使用过Hunyuan - Large或者marco - o1并发现它们有欠缺吗?
讨论总结
原帖作者对15个LLMs进行网络安全测试并列出结果排名,评论者们各抒己见。部分人认可测试结果,也有人认为测试存在问题如原测试可能无效、测试范围有遗漏等,还有人推荐新的模型进行测试或者对未参与测试的模型表示好奇,同时讨论也延伸到网络安全相关职业的话题。
主要观点
- 👍 认可原测试结果
- 支持理由:认为结果不错。
- 反对声音:无。
- 🔥 原测试可能无效
- 正方观点:测试可能只是检验模型重复答案能力,未涉及逻辑推理。
- 反方观点:原帖未回应。
- 💡 测试范围有遗漏
- 认为应将DeepSeek及其DeepThinker版本加入测试范围。
- 🤔 部分模型有特殊情况影响表现
- 如Marco - o1没有发布合适搜索推理代码、基于Qwen2 - 7B - Instruct等情况影响其测试结果。
- 😎 网络安全相关工作能力更重要
- 认为网络安全工作中能力展示比证书重要,无学位也可被录用。
金句与有趣评论
- “😂 Haven’t yet but great results.”
- 亮点:简洁表达对测试结果认可。
- “🤔 Hey, thank you for the effort and sharing the results.”
- 亮点:对原帖作者的测试表示感谢。
- “👀 should have tested deepseek and its deep thinker version also.”
- 亮点:指出原测试的遗漏之处。
- “😏 erm_what_: This won’t work and is a bit of a misunderstanding as to how ML works.”
- 亮点:直接对原测试的有效性提出质疑。
- “💪 Competency and ability to get the job done to spec is above all else.”
- 亮点:强调网络安全工作中能力的重要性。
情感分析
总体情感倾向比较中立客观。主要分歧点在于对原测试的有效性,一方认为原测试存在问题,另一方未对此有明确反对。可能的原因是大家从不同角度看待测试,有的从测试原理出发,有的从测试结果出发。
趋势与预测
- 新兴话题:对未参与测试的模型(如Gemini等)进行测试可能引发后续讨论。
- 潜在影响:如果更多模型被纳入测试,可能会影响人们对不同模型网络安全知识掌握能力的认知,也可能对网络安全相关工作的人才培养方向产生影响。
详细内容:
标题:对 15 款大语言模型网络安全知识测试的热门讨论
最近,Reddit 上有一个关于测试 15 款大语言模型(LLM)网络安全知识的帖子火了起来。这个帖子的作者使用了来自 CompTIA 实践测试的 421 个问题来测试这些模型,获得了众多关注,点赞和评论数众多。
帖子中公布了各模型的测试成绩,如 01-Preview 以 95.72%的准确率位居第一。作者对 marco-o1 未能超越基础模型(Qwen 7b)感到惊讶,同时认为 Hunyuan-Large 的表现有些令人失望。这也引发了大家的热烈讨论。
讨论焦点主要集中在以下几个方面: 有人称赞作者的测试成果,认为网络安全这个领域确实需要更多关注。有人询问这些问题主要测试的是模型的知识还是解决问题的能力,并建议测试 WhiteRabbitNeo 模型。也有人指出模型的微调可能导致基本指令功能出现问题,无法稳定输出正确格式的答案。
对于测试的有效性,有人认为模型可能在训练数据中已经包含了测试问题,所以这并非真正的测试,而是对已有答案的重复。但作者表示这些测试是通过复杂的技术获取,不太可能被包含在模型的训练数据中。
还有人讨论了不同模型的表现,如有人觉得 Claude 与 01 之间存在明显的准确率差异。有人好奇 Google 1121 的表现如何。也有人提到 Marco-o1 的基础模型以及其性能提升的原因。
此外,关于如何获取和运行某些模型,有人分享了自己的经历。还有人探讨了网络安全相关工作的就业要求,比如是否需要四年大学学位,以及 AI 对这些工作的影响。有人分享了自己在该行业的工作经验,认为能力和实际表现比证书更重要,并且远程工作很流行。
这次关于 LLM 网络安全知识测试的讨论,为我们深入了解这些模型的性能和网络安全领域的发展提供了丰富的视角。那么,未来这类测试能否更加科学有效?模型在网络安全领域的应用又将如何发展?让我们拭目以待。
感谢您的耐心阅读!来选个表情,或者留个评论吧!