模型与技术 模型更新

Cortex支持Small - Thinker - 3B,一个基于Qwen2.5 - 3b - Instruct微调的小推理模型

[该讨论围绕cortex支持small - thinker - 3B模型展开,涉及模型的使用、性能、相关数据集、未来发展以及对cortex概念的疑问等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Fireworks托管Deepseek V3:无数据收集,每月0.9美元,每秒25t

[关于Fireworks托管Deepseek V3的话题引发讨论,包括可信度、数据隐私、价格等方面,存在争议也有认可,总体氛围较复杂。]

 ·  · 
模型与技术 技术讨论

O1系列模型大小相同,O1价格高于GPT - 4O的原因及O1 Pro相关情况

[帖子围绕关于模型的一些论断展开讨论,包含模型关系、价格差异等方面,有赞同、质疑等不同态度,整体讨论氛围理性且充满探索性]

 ·  · 
模型与技术 其他

Moshi语音模型为何未成为热门话题

[帖子询问Moshi的情况以及为何不热门,评论从Moshi体验差、与其他模型比较、模型功能及发展策略等多方面进行讨论,整体氛围以负面评价Moshi为主]

 ·  · 
模型与技术 技术讨论

Ollama模型上下文增加时模型大小的增长

[在ollama模型大小随上下文增加而增加的背景下,大家展开技术讨论,涉及模型架构、内存计算等多方面内容,整体氛围理性客观]

 ·  · 
模型与技术 其他

本地版GLaDOS - 离线人格核心

[这是一个关于µLocalGLaDOS - offline Personality Core的讨论,包含项目成果、在不同设备上的运行情况、创意想法等内容,整体氛围积极且充满探索性]

 ·  · 
模型与技术 其他

寻求自然中性且无审查的最佳模型

[原帖寻求不色情、自然中性且无审查的模型,评论者们纷纷推荐自己认为合适的模型并讨论相关模型的特点、存在的问题以及与审查、性暗示等方面的关系]

 ·  · 
模型与技术 性能对比

深度寻求V3、QVQ - 72B预览版、猎鹰3 10B、羊驼3.3 70B、神经电子70B在更新的MMLU - Pro CS基准测试中的大语言模型比较/测试

[帖子对多个LLM模型进行比较/测试,评论围绕模型表现、测试准确性、特定模型评价、基准测试选择、模型盈利模式等方面展开,整体氛围以理性探讨为主]

 ·  · 
模型与技术 其他

本地LLM首次获得引用

[原帖提到本地LLM首次得到引用,评论围绕引用错误、模型表现、结果偏离等展开,有疑惑、赞同等多种态度]

 ·  · 
模型与技术 性能对比

DeepSeek v3与Claude 3.5 Sonnet 1022对比:DeepSeek编写的代码更简洁(我的经验)

[原帖比较DeepSeek v3和Claude 3.5 Sonnet在代码编写方面的差异,评论主要围绕对二者的看法、是否存在过度设计、对新手的友好性、性价比等展开,同时还涉及对原帖是否为AI撰写的怀疑。]

 ·  ·