模型与技术

字节跳动豆包1.5pro - 豆包团队

[围绕字节跳动的Doubao 1.5pro展开讨论，涉及模型权重是否开放、性能表现、API发布、注册问题等，整体氛围较为理性探讨]

[原帖讲述R1在图论问题上表现优于4o，引发众多讨论，包括R1的能力、与其他模型比较、性价比、硬件需求等，观点多样且存在争议]

[DeepSeek R1 (Qwen 32B Distill)在HuggingChat免费可用引发讨论，涉及模型性能、账号要求、与其他模型关系等多方面，有技术交流也有争议。]

[原帖感慨从llama2到DeepSeek R1在约1年时间里取得很大进步，评论者们围绕Llama系列版本好坏、DeepSeek R1的性能、开源模型发展、以及一些相关时间和使用场景等问题展开讨论，整体氛围积极且充满探索性]

[围绕一个伪装成llama的新TTS模型展开讨论，涉及模型声音、运行要求、克隆效果、量化等多方面，整体氛围积极且充满探索性]

[帖子围绕DeepSeek - R1 - Distill - Qwen - 1.5B展开讨论，涉及模型性能、ONNX相关、与Claude 3.5比较等多个话题，有对其性能的质疑、肯定，也有对相关技术的讨论，整体氛围比较积极活跃。]

[西班牙政府发布官方模型引发讨论，涉及数据公开、模型命名、不同国家模型相关情况、官方语言支持等多方面，整体氛围较理性，观点多元。]

[围绕Gemini Thinking experimental 01 - 21展开讨论，涉及模型特性、与其他版本关系、评价等方面，有肯定也有质疑，整体氛围较理性]

[原帖计算R1与o1的有效成本引发讨论，有人质疑原帖假设与计算方式，还有人提出不同计算结果，也有对比较方式及模型发展等的看法]

[关于DeepSeek R1模型在Ollama库中的情况，大家讨论了14B模型在M1 Macbook上的运行、32B模型的上下文窗口以及14B和32B模型在特定VRAM下的优劣等内容，整体氛围比较理性探讨]