模型与技术 技术讨论

超拟合现象:优化大语言模型以稳定生成开放式文本

[围绕论文中的超拟合现象展开讨论,包括其在模型中的表现、作用、与其他概念的关系等,总体氛围较为积极且充满探索性]

 ·  · 
模型与技术 技术讨论

4位量化可能破坏模型 - 动态量化10%FP16 90%4位

[原帖介绍Unsloth中视觉微调支持时发现4bit量化可能破坏模型,评论围绕此展开,包括量化对不同模型影响、Unsloth功能等,有认可也有提问]

 ·  · 
模型与技术 技术讨论

Llama 70b多步工具实现

[帖子探讨在Llama 70b模型中多步工具调用的实现,评论者分享了如Athena - v2 - 72b - agent等可能的方案、手动操作的方法和在调用工具前让模型思考的成果等内容,整体讨论热度较低。]

 ·  · 
模型与技术 技术讨论

3个P40设备运行llama.cpp,推测解码是否加速?

[原帖询问3个P40运行llama.cpp时推测性解码是否有速度提升,评论者们分享了各自的经验、建议和测试结果,整体氛围是积极的知识交流]

 ·  · 
模型与技术 技术讨论

QwQ - 分离思维过程与最终输出的最佳方法

[原帖寻求在使用QwQ模型时区分思考过程与最终输出的方法,评论给出多种解决思路包括正则表达式、使用其他模型、特定标签运用等,整体氛围积极探索]

 ·  · 
模型与技术 技术讨论

Whisper用于实时转录为何无提示缓存?

[关于Whisper在实时转录中为何没有提示缓存的问题,大家从不同角度进行了探讨,包括技术实现、性能比较等方面,整体氛围偏向理性探讨]

 ·  · 
模型与技术 技术讨论

QWQ和R1无特殊标记时如何判断需更多推理步骤

[关于QWQ和R1在无特殊令牌时如何确定推理步骤的问题展开讨论,涉及多种可能机制,同时还涉及模型比较等相关话题,整体氛围较为理性探讨]

 ·  · 
模型与技术 技术讨论

大型模型的无损4位量化是否可行?

[原帖分享Qwen2.5 72B instruct的4 - bit量化实验结果,评论者们围绕模型量化的多个方面展开讨论,包括量化是否有损、模型性能评估、不同模型间比较等,氛围充满学术探讨氛围且存在一定争议。]

 ·  · 
模型与技术 技术讨论

MoDEM:领域专家模型混合体

[原帖分享特定领域微调模型间路由研究成果,评论者从成果认可、技术疑问、命名建议、成果质疑等多方面进行讨论,氛围积极与质疑并存]

 ·  · 
模型与技术 技术讨论

创建v1.3 RPMax模型时发现损坏的标记器需警惕

[在创建v1.3 RPMax模型发现分词器损坏的背景下,大家讨论了RPMax模型各版本差异、训练参数、模型成功之处,也涉及分词器损坏的判断和解决方法、新手关于相关概念的疑问、模型比较等内容,整体氛围较为积极探讨技术问题]

 ·  ·