模型与技术 新模型发布

R1 - Zero纯强化学习创造出难以解读的思维,是AGI的黑暗面吗

[关于R1 - Zero模型跳过监督微调通过强化学习训练引发多方面讨论,包括模型输出、训练方式、性能表现、推理逻辑等,有质疑也有解释,情感态度多样]

 ·  · 
模型与技术 新模型发布

新的通义千问可能也是混合专家模型

[围绕新Qwen可能是MoE展开讨论,涉及模型规模、性能、本地操作、许可等多方面,有希望也有质疑,整体氛围理性且技术向]

 ·  · 
模型与技术 新模型发布

字节跳动豆包1.5pro - 豆包团队

[围绕字节跳动的Doubao 1.5pro展开讨论,涉及模型权重是否开放、性能表现、API发布、注册问题等,整体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

DeepSeek R1(Qwen 32B蒸馏版)可在HuggingChat免费使用

[DeepSeek R1 (Qwen 32B Distill)在HuggingChat免费可用引发讨论,涉及模型性能、账号要求、与其他模型关系等多方面,有技术交流也有争议。]

 ·  · 
模型与技术 新模型发布

新TTS模型,似Llama伪装

[围绕一个伪装成llama的新TTS模型展开讨论,涉及模型声音、运行要求、克隆效果、量化等多方面,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

西班牙政府发布官方模型

[西班牙政府发布官方模型引发讨论,涉及数据公开、模型命名、不同国家模型相关情况、官方语言支持等多方面,整体氛围较理性,观点多元。]

 ·  · 
模型与技术 新模型发布

Gemini Thinking实验01 - 21发布!

[围绕Gemini Thinking experimental 01 - 21展开讨论,涉及模型特性、与其他版本关系、评价等方面,有肯定也有质疑,整体氛围较理性]

 ·  · 
模型与技术 新模型发布

DeepSeek R1模型的GGUF文件已上架Ollama库

[关于DeepSeek R1模型在Ollama库中的情况,大家讨论了14B模型在M1 Macbook上的运行、32B模型的上下文窗口以及14B和32B模型在特定VRAM下的优劣等内容,整体氛围比较理性探讨]

 ·  · 
模型与技术 新模型发布

DeepSeek发布R1的6个蒸馏版本及R1完整版

[围绕Deepseek上传的模型展开多方面讨论,包括模型性能比较、技术相关、中国专利知识产权等,既有理性技术探讨也有争议性话题,整体氛围活跃且多元]

 ·  · 
模型与技术 新模型发布

DeepSeek-R1-Distill-Qwen-32B成为本地使用的最佳开源模型

[关于DeepSeek - R1 - Distill - Qwen - 32B模型,大家讨论了其性能、实用性、与其他模型比较,同时有许多关于模型技术方面的疑问,整体氛围积极且充满探索性]

 ·  ·