模型与技术 模型更新

DeepSeek - V3 - 0324模型卡依据基准更新

[围绕DeepSeek - V3 - 0324 HF模型卡更新展开讨论,涉及模型温度默认值改变的争议、与OpenAI的比较、模型改进、使用成本、写作风格等多个话题,氛围有争议也有积极评价]

 ·  · 
模型与技术 模型更新

DeepSeek V3-0324较V3有显著提升,成为最佳非推理模型

[原帖指出DeepSeek V3 - 0324在Misguided Attention评估中提升显著成为最佳非推理模型,评论从不同角度进行讨论,包括模型解决问题能力、对其他模型的影响、性能改进背后的情况等,整体氛围以理性探讨为主]

 ·  · 
模型与技术 模型更新

推出Muchi,Moshi的微调版本

[原帖介绍Muchi(Moshi的微调版本),评论围绕Moshi的问题、Muchi的性能、模型训练细节、名字问题等展开,氛围比较多元既有兴趣也有批评]

 ·  · 
模型与技术 模型更新

Gemma 3在Unsloth中微调,速度提升1.6倍且VRAM占用减少60%

[该讨论围绕Gemma3在Unsloth中的微调展开,包括功能、优化、运行情况等多方面的疑问、期待与积极评价]

 ·  · 
模型与技术 模型更新

Qwq - 32b在Livebench上完成更新

[围绕Qwq - 32b更新Livebench展开讨论,涉及模型性能、与其他模型比较、开源情况、本地运行以及对相关模型的期待与质疑等多方面内容,整体氛围积极且充满探索性]

 ·  · 
模型与技术 模型更新

Livrbench - 明日qwq32b将更新至score?

[围绕Livrbench中qwq32b的更新得分展开讨论,涉及qwq的不兼容、配置问题等,对排行榜结果是否调整也表示好奇,总体氛围较为理性且探讨氛围浓厚]

 ·  · 
模型与技术 模型更新

Meta AI何时迎来Llama升级

[原帖询问Meta AI的Llama版本何时升级,评论围绕Llama版本目前的停滞状态、可能的升级时间、Meta AI与其他竞品的关系、股东利益以及是否应免费升级等展开,整体氛围充满对Llama升级的期待与猜测。]

 ·  · 
模型与技术 模型更新

Phi-4 - mini的漏洞修复与GGUFs

[原帖发布Phi - 4 - mini的Bug修复及相关资源,评论围绕模型发布错误、对技术方面的疑惑、表示感谢等展开,氛围较为积极且充满技术探讨]

 ·  · 
模型与技术 模型更新

PerplexityAI发布R1-1776:深度寻求R1微调版,去除中国审查并保持推理能力

[围绕PerplexityAI发布的R1 - 1776模型,讨论涉及审查制度、模型特性、偏见、中美差异等多方面,氛围争议性强且观点多样]

 ·  · 
模型与技术 模型更新

我的模型在Hugging Face上成为热门,我推出14B和7B升级版

[原帖分享UIGEN - T1.1模型升级,评论者围绕模型相关的各种话题展开讨论,如性能改进、数据集查看、技术操作困难等,整体氛围积极且充满建设性。]

 ·  ·