模型与技术 新模型发布

Kimi.ai发布Moonlight 3B/16B MoE模型及改进的Muon优化器

[关于Kimi.ai发布的Moonlight模型,大家从优化器、性能、模型比较等多方面进行讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Perplexity发布无审查的DeepSeek R1 Llama 70B模型相关版本

[原帖分享Perplexity可能悄悄发布DeepSeek R1 Llama 70B无审查版本相关内容,评论涉及模型版本需求、量化意义、GGUFs标签错误、技术对比等多方面内容,讨论热度整体较低]

 ·  · 
模型与技术 新模型发布

Qwen2.5 VL 7B指令GGUF版本与基准测试

[围绕Qwen2.5 VL在llama.cpp上的运行及相关问题展开讨论,包括llama - server支持、等待中的期待、对工作的感谢认可、提醒功能以及技术方面的询问等,整体氛围积极平和]

 ·  · 
模型与技术 新模型发布

Wayfarer Large表现出色及其示例聊天

[关于Wayfarer Large模型的讨论,涉及模型优缺点、与其他模型的比较、可能的关联以及推广信息等,整体氛围较为积极且讨论内容丰富多样]

 ·  · 
模型与技术 新模型发布

DeepSeek R1现可进行函数调用

[围绕DeepSeek R1的函数调用功能展开讨论,涉及函数调用的实现方式、模型能力、相关概念质疑、在代理系统中的应用等多方面内容,整体氛围积极探讨技术问题]

 ·  · 
模型与技术 新模型发布

OpenThinker:32B推理模型

[围绕OpenThinker模型展开讨论,涉及模型性能、审查情况、是否需要去审查、对模型的信任度以及一些使用场景中的道德伦理等问题,整体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

Qwen/Qwen2.5 - VL - 3B/7B/72B - Instruct发布!

[关于Qwen2.5 - VL - 3B/7B/72B - Instruct发布,大家围绕模型功能、版本发布情况、不同平台的支持性、资源需求、与其他模型对比等方面展开讨论,氛围积极且充满好奇]

 ·  · 
模型与技术 新模型发布

SmolVLM2:可在低性能设备运行的开源视频模型

[Hugging Face发布SmolVLM2引发讨论,大家多持积极态度,有人关注其性能、应用等,也有人提出疑问]

 ·  · 
模型与技术 新模型发布

Ozone AI发布新模型Reverb - 7b

[Ozone AI发布Reverb - 7b模型,大家围绕模型的性能、训练数据、与其他模型对比、创意写作能力等方面展开讨论,氛围积极且充满好奇]

 ·  · 
模型与技术 新模型发布

基于Qwen2.5 - Max的推理模型即将发布

[关于阿里巴巴将发布基于Qwen2.5 - Max的推理模型,大家讨论了Qwen的不同版本、性能、与其他模型比较、开源与否、模型参数等,整体氛围积极且充满期待]

 ·  ·