模型更新 | LLM Info

DeepSeek - V3 - 0324模型卡依据基准更新

[围绕DeepSeek - V3 - 0324 HF模型卡更新展开讨论，涉及模型温度默认值改变的争议、与OpenAI的比较、模型改进、使用成本、写作风格等多个话题，氛围有争议也有积极评价]

[原帖指出DeepSeek V3 - 0324在Misguided Attention评估中提升显著成为最佳非推理模型，评论从不同角度进行讨论，包括模型解决问题能力、对其他模型的影响、性能改进背后的情况等，整体氛围以理性探讨为主]

[原帖介绍Muchi（Moshi的微调版本），评论围绕Moshi的问题、Muchi的性能、模型训练细节、名字问题等展开，氛围比较多元既有兴趣也有批评]

[该讨论围绕Gemma3在Unsloth中的微调展开，包括功能、优化、运行情况等多方面的疑问、期待与积极评价]

[围绕Qwq - 32b更新Livebench展开讨论，涉及模型性能、与其他模型比较、开源情况、本地运行以及对相关模型的期待与质疑等多方面内容，整体氛围积极且充满探索性]

[围绕Livrbench中qwq32b的更新得分展开讨论，涉及qwq的不兼容、配置问题等，对排行榜结果是否调整也表示好奇，总体氛围较为理性且探讨氛围浓厚]

[原帖询问Meta AI的Llama版本何时升级，评论围绕Llama版本目前的停滞状态、可能的升级时间、Meta AI与其他竞品的关系、股东利益以及是否应免费升级等展开，整体氛围充满对Llama升级的期待与猜测。]

[原帖发布Phi - 4 - mini的Bug修复及相关资源，评论围绕模型发布错误、对技术方面的疑惑、表示感谢等展开，氛围较为积极且充满技术探讨]

[围绕PerplexityAI发布的R1 - 1776模型，讨论涉及审查制度、模型特性、偏见、中美差异等多方面，氛围争议性强且观点多样]

[原帖分享UIGEN - T1.1模型升级，评论者围绕模型相关的各种话题展开讨论，如性能改进、数据集查看、技术操作困难等，整体氛围积极且充满建设性。]