模型与技术 训练与微调技术

超拟合小训练集模型可积极影响人类对模型输出的偏好

[关于将模型超拟合到小训练集可积极影响人类对模型输出的偏好这一观点,大家分享了经验、成果、疑惑和不同看法,总体氛围是积极探讨。]

 ·  · 
模型与技术 性能对比

Mistral - small - 24b - instruct - 2501被赞为最佳模型

[原帖声称Mistral - small - 24b - instruct - 2501是最好的模型,评论者从性能、使用体验、与其他模型比较等多方面进行讨论,既有赞同也有反对,还涉及模型在不同场景下的表现等诸多内容。]

 ·  · 
模型与技术 新模型发布

DeepSeek-R1错误信息失控

[围绕DeepSeek - R1在谷歌云博客等平台相关信息展开讨论,涉及错误信息、模型参数、创作来源等方面,观点多样且存在争议,整体氛围较热烈]

 ·  · 
模型与技术 性能对比

Mistral 3 Small:值得微调与部署的实用模型

[原帖对Mistral 3 Small的肯定引发了多种讨论,包括其应用场景、性能比较、模型微调等,讨论氛围较为积极且理性]

 ·  · 
模型与技术 新模型发布

美国人也能对模型进行提炼

[原帖作者计划众包数据改进语音模型,引发关于模型训练各方面的讨论,包括开源与否、数据来源、训练配方等,整体氛围较积极且充满探索性]

 ·  · 
模型与技术 性能对比

对11种流行本地大语言模型在指令繁重的游戏/应用中的测试

[原帖作者对多个本地LLM进行特定游戏/应用测试,评论者从测试结果有用性、模型表现、改进建议、未测试模型等多方面展开讨论,整体氛围比较和谐且交流积极]

 ·  · 
模型与技术 性能对比

R1在评估中有14%的幻觉率,表现不佳

[帖子提到R1的14%幻觉率等问题,评论围绕R1的问题、模型评估方式、幻觉率的合理性以及模型调优等方面展开讨论,氛围比较理性且存在多种观点碰撞]

 ·  · 
模型与技术 性能对比

Mistral Small 3 24b通过“苹果”测试

[原帖称Mistral Small 3 24b通过特定测试,评论者围绕LLM测试方式、模型性能及基准测试的有效性等展开讨论,有惊喜、质疑等不同态度,氛围活跃且观点多元]

 ·  · 
模型与技术 其他

GPT 3.5开放权重是否值得关注

[围绕GPT 3.5开放权重是否有趣展开讨论,观点包括对研究的意义、实用性、是否应开源等,整体氛围争议较大]

 ·  · 
模型与技术 性能对比

低量化下更高参数是否更优?

[原帖对不同量化值和模型参数下的模型进行测试比较,评论从量化方式、模型性能、影响因素、使用体验等多方面展开讨论,整体氛围积极且理性]

 ·  ·