模型与技术 新模型发布

Salt:基于大语言模型的语音生成新方法(含开源代码)

[介绍Salt语音生成项目的帖子引发讨论,包括代码错误、许可证问题、与其他项目比较等内容,大家对项目前景看法不一]

 ·  · 
模型与技术 新模型发布

DeepSeek R1 Distill Qwen 2.5 32B去抑制版(无审查)发布

[围绕DeepSeek R1 Distill Qwen 2.5 (32B)消融版本展开讨论,包括NSFW测试、模型无法拒绝请求的特性、消融对模型性能的影响等,总体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

着迷于观察模型的思考输出

[帖子关于对观看R1思考输出的痴迷与否展开讨论,包含其在语言学习中的作用、技术问题、观看思考输出的感受、对思考模式的看法等多方面内容,整体讨论热度较低,氛围较为平和。]

 ·  · 
模型与技术 新模型发布

OpenAI推出Operator:计算机使用代理

[OpenAI推出Operator后,评论者反应不一,有持观望态度、不看好、失望的,也有期待其发展的]

 ·  · 
模型与技术 新模型发布

R1 - Zero纯强化学习创造出难以解读的思维,是AGI的黑暗面吗

[围绕R1 - Zero模型的性能、推理方式、成果意义等展开讨论,有对其独特性的探究、成果的质疑、对原帖内容和表述风格的争议,整体氛围争议性较强]

 ·  · 
模型与技术 新模型发布

新的通义千问可能也是混合专家模型

[围绕新Qwen可能为混合专家模型(MoE)展开讨论,涉及模型规模、性能、本地运行可行性、许可等多方面内容,整体氛围积极探讨且充满对模型发展的期待]

 ·  · 
模型与技术 新模型发布

FuseAI/FuseO1-DeepSeekR1-Qwen2.5-Coder-32B - 预览版GGUF

[围绕FuseAI/FuseO1 - DeepSeekR1 - Qwen2.5 - Coder - 32B - Preview - GGUF这个人工智能模型展开讨论,涉及模型融合、性能期望、编码、量化文件等多方面内容,整体氛围比较平静且探索性较强]

 ·  · 
模型与技术 新模型发布

字节跳动豆包1.5pro - 豆包团队

[围绕字节跳动的Doubao 1.5pro展开讨论,涉及模型权重是否开放、性能表现、API发布、注册问题等,整体氛围较为理性探讨]

 ·  · 
模型与技术 新模型发布

DeepSeek R1(Qwen 32B蒸馏版)可在HuggingChat免费使用

[DeepSeek R1 (Qwen 32B Distill)在HuggingChat免费可用引发讨论,涉及模型性能、账号要求、与其他模型关系等多方面,有技术交流也有争议。]

 ·  · 
模型与技术 新模型发布

新TTS模型,似Llama伪装

[围绕一个伪装成llama的新TTS模型展开讨论,涉及模型声音、运行要求、克隆效果、量化等多方面,整体氛围积极且充满探索性]

 ·  ·