模型与技术 性能对比

Athene - V2为何无人问津?

[原帖对Athene - V2无人关注表示疑惑,评论从模型来源、性能、硬件适配、Qwen的关系等多方面探讨可能的原因,还有人索要更多模型信息]

 ·  · 
模型与技术 性能对比

vLLM性能惊人

[原帖分享vLLM测试情况,引出众多关于模型技术的讨论,包括与llama.cpp的对比、不同量化格式的性能、模型设置等多方面内容,整体氛围偏向技术交流与分享]

 ·  · 
模型与技术 性能对比

流行本地大语言模型EXL2量化的MMLU(4个类别)基准测试

[帖子对不同本地LLMs的EXL2量化进行MMLU基准测试,评论者围绕模型量化、性能、切换、测试基准等方面展开讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 性能对比

Q5与Q6量化模型的质量差异探讨

[原帖讨论Q5与Q6、Q8等量化等级之间是否存在质量差异,评论者从不同角度发表观点,包括自身使用体验、基准测试情况、不同场景下的量化选择等,整体氛围较为理性探讨]

 ·  · 
模型与技术 性能对比

Qwen 2.5 Coder 32B与Claude 3.5 Sonnet对比:是我错了吗?

[原帖对比Qwen 2.5 Coder 32B和Claude 3.5 Sonnet在复杂项目代码分析优化上的表现,认为Qwen表现差,评论主要围绕Qwen表现差的原因展开,有认为是模型本身问题,也有认为是使用方式问题,讨论氛围较为理性。]

 ·  · 
模型与技术 性能对比

12GB显存下,哪种Qwen模型最适合编码?

[围绕12GB显存下哪种Qwen模型适合编码展开讨论,涉及不同Qwen模型在不同场景下的优劣、模型使用的注意事项以及其他相关话题,整体氛围较为平和且具有技术交流性。]

 ·  · 
模型与技术 性能对比

Gemini-exp-1114在LiveBench上胜过GPT-4o,不敌sonnet和o1

[围绕不同AI模型在性能比较上展开讨论,包括对特定模型的期待、疑惑、不信任,还涉及模型的进展和在竞争中的地位等,整体氛围较为理性且充满技术探讨氛围]

 ·  · 
模型与技术 性能对比

热门本地大型语言模型EXL2量化的HumanEval基准测试(涵盖2.5到8.0 bpw)

[原帖对流行本地LLMs的EXL2量化进行HumanEval基准测试,评论围绕模型性能、量化、模型可视化等话题展开,包含对模型表现的观察、疑问、对比等,氛围较为技术化且理性探讨居多。]

 ·  · 
模型与技术 性能对比

双3090下最佳无审查写作模型

[针对双3090的最佳无审查写作模型展开讨论,众多评论者推荐了各自认为不错的模型,并涉及模型性能、适配性、运行参数等方面,整体氛围比较平和专注于模型推荐]

 ·  · 
模型与技术 性能对比

Qwen 2.5 7B在Livebench中超越Mixtral 8x22B和Claude 3 Haiku

[帖子围绕机器学习模型性能对比展开,评论包含对各模型性能的看法、比较合理性的质疑、不同场景下的表现、特定版本问题等,氛围以理性讨论为主,也有调侃和怀疑]

 ·  ·