模型与技术 模型更新

KTransformers v0.2.1:针对DeepSeek - V3/R1 - q4,将上下文从4K扩展到8K(24GB VRAM)且速度略增(+15%)

[KTransformers v0.2.1发布相关的讨论,包含技术支持、性能、硬件等方面的疑问、观点和期待,整体氛围积极且充满探索性]

 ·  · 
模型与技术 模型更新

Drummer的Cydonia 24B v2:Mistral Small 2501的RP微调版本

[围绕名为Drummer"s Cydonia 24B v2的模型,大家表现出期待、兴趣,讨论包括链接访问、内容创作、预设分享、模型功能等多方面话题,整体氛围较为积极活跃]

 ·  · 
模型与技术 模型更新

发布我的首个模型LlamaThink - 8B

[原帖发布LlamaThink - 8B模型,大家的讨论围绕模型分享展开,包括请求示例输出、询问模型相关技术细节、分享经验、提出对比测试等,整体氛围积极和谐]

 ·  · 
模型与技术 模型更新

修剪后的Phi-4模型及其不安全因素

[原帖介绍了对Phi - 4进行修剪后的Phi - Lthy4,评论围绕模型相关话题展开,包括与其他模型比较、运行硬件需求、资源获取等,氛围比较轻松,有幽默元素]

 ·  · 
模型与技术 模型更新

OpenAI为用户更新思维链

[围绕OpenAI的思维链更新展开讨论,涉及更新内容未完全展示、免费使用权限、与其他技术对比等多方面内容,同时也提到了DeepSeek相关影响,讨论氛围有质疑、不满也有正面评价]

 ·  · 
模型与技术 模型更新

LLaMA 3.1微调用于多选互动小说

[关于LLaMA 3.1 - 8b微调版本用于多选项互动小说的项目发布,作者介绍项目情况并解答疑问,评论者有认可、提问、建议等多种反应。]

 ·  · 
模型与技术 模型更新

DeepSeek R1再蒸馏取得成果

[围绕Re - Distilling DeepSeek R1展开讨论,涉及模型蒸馏相关的技术、成本、硬件等多方面问题,有幽默调侃也有正经的技术探讨]

 ·  · 
模型与技术 模型更新

注意:你的7B/14B/32B/70B“R1”并非DeepSeek

[原帖指出特定型号不是真正的DeepSeek而是现有模型微调,引发众多讨论,包括Ollama的影响、模型命名的误导性、不同模型的性能与推理、运行需求等多方面内容,讨论氛围热烈且观点多元。]

 ·  · 
模型与技术 模型更新

日版Qwen 7B蒸馏模型微调,模型开源

[原帖介绍了对模型的日语微调及开源相关情况,评论围绕多语言版本制作、模型微调的必要性、成本、训练数据等展开,氛围比较积极且充满探索性]

 ·  · 
模型与技术 模型更新

深度探索Deepseek 2.5(及Unsloth)

[原帖介绍Deepseek 2.5相关情况,评论主要围绕Deepseek 2.5的性能、量化、流行度、硬件运行情况以及产品评价等展开讨论,整体氛围较为理性]

 ·  ·