模型与技术 性能对比

R1蒸馏模型在AIME 2025中的高分令人惊叹

[围绕AIME 2025的模型分数、性能、价格等方面展开讨论,有比较、疑问、质疑等不同观点,氛围比较理性探讨]

 ·  · 
模型与技术 性能对比

斯坦福s1如何超越DeepSeek - R1:从暴力到智能

[围绕斯坦福s1超越DeepSeek - R1展开讨论,涉及模型情况、AI未来、资源获取以及对成果的质疑等多方面内容,讨论氛围较为理性客观]

 ·  · 
模型与技术 性能对比

小语言模型如同“醉酒”语言模型

[原帖将小型LLMs比作“喝醉”的LLMs,评论从幽默调侃、模型能力、信息危害等多方面展开讨论,氛围较为轻松]

 ·  · 
模型与技术 性能对比

Gemini在视频OCR基准测试任务中领先

[Gemini在视频OCR基准测试任务中的成果引发多种讨论,包括与其他模型对比、模型表现的不同方面、工作体验等,整体氛围积极探讨且存在部分质疑]

 ·  · 
模型与技术 性能对比

Mistral的Le Chat是否真的最快?

[围绕Mistral"s Le Chat是否最快展开讨论,涉及速度与性能的多方面因素,包括模型大小、硬件、适用任务等,大家观点不一且有不少争议]

 ·  · 
模型与技术 性能对比

NoLiMa:超越字面匹配的长文本评估——终于有个好基准能显示大语言模型在长文本下的糟糕表现,所有模型在仅32k文本长度时性能大幅下降

[围绕LLM长上下文性能展开讨论,涉及基准测试、模型表现及长文本处理等方面,有观点交流、质疑与期待,整体氛围积极探讨]

 ·  · 
模型与技术 性能对比

测试多款小型编码模型,Nvidia/AceInstruct-7B表现惊艳却鲜有人提及

[原帖分享AceInstruct - 7B在编码方面表现不错但被忽视,评论围绕AI模型与项目展开,包括模型的评价、比较、性能等,还涉及到编码工作中的相关话题以及模型选择偏好等内容]

 ·  · 
模型与技术 性能对比

10亿参数语言模型能否超越405亿参数语言模型?重新思考计算最优测试时缩放

[围绕1B语言模型能否超越405B语言模型的研究展开讨论,涉及研究内容、模型能力、验证、未来发展等多方面,整体氛围较为理性和积极探讨]

 ·  · 
模型与技术 性能对比

使用o1和DeepSeek一段时间后,ChatGPT 4o显得很愚蠢

[原帖作者认为ChatGPT 4o变蠢,评论者从不同角度探讨其性能下降原因、与其他模型对比情况、企业可能的操作以及表达各自使用体验和对不同模型的看法等,整体氛围是讨论热烈且观点多元]

 ·  · 
模型与技术 性能对比

DeepSeek R1在混淆(幻觉)基准测试中优于o3 - mini(中)

[帖子关于DeepSeek R1和o3 - mini在Confabulations Benchmark的比较,评论涵盖图表问题、模型特性、评估基准、对测试的态度等多方面内容,整体氛围比较多元且富有探讨性]

 ·  ·