模型与技术 新模型发布

YOLOv12新模型发布

[关于YOLOv12的讨论涉及与其他模型比较、协议倾向、公司负面评价、缺乏创新等多方面,整体氛围偏向批评且对特定功能表示好奇。]

 ·  · 
模型与技术 其他

大型语言扩散模型

[关于大型语言扩散模型的讨论,包括对模型挑战传统观念、性能表现、存在问题等的探讨,整体氛围积极且充满期待]

 ·  · 
模型与技术 模型更新

PerplexityAI发布R1-1776:深度寻求R1微调版,去除中国审查并保持推理能力

[围绕PerplexityAI发布的R1 - 1776模型,讨论涉及审查制度、模型特性、偏见、中美差异等多方面,氛围争议性强且观点多样]

 ·  · 
模型与技术 新模型发布

Sama探讨手机大小模型的发布

[围绕Sama讨论手机大小模型的发布,主要聚焦phi4 o3 distill展开技术讨论,还有人表达对事件持正面态度]

 ·  · 
模型与技术 性能对比

GROK - 3及其迷你版超越O3 - mini high和Deepseek R1

[围绕GROK - 3及其mini版的性能、价格、与其他模型比较等展开讨论,涉及基准测试有效性、图表设计等问题,还牵扯到与埃隆·马斯克相关的争议以及纳粹相关话题,整体氛围争议较多。]

 ·  · 
模型与技术 性能对比

Deepseek R1蒸馏模型MMLU专业基准测试

[围绕Deepseek R1 Distilled Models MMLU Pro Benchmarks展开讨论,涉及模型性能、对比、基准测试等多方面,存在对数据的疑惑、模型表现的争议,整体氛围积极探讨]

 ·  · 
模型与技术 模型更新

我的模型在Hugging Face上成为热门,我推出14B和7B升级版

[原帖分享UIGEN - T1.1模型升级,评论者围绕模型相关的各种话题展开讨论,如性能改进、数据集查看、技术操作困难等,整体氛围积极且充满建设性。]

 ·  · 
模型与技术 新模型发布

量化DeepSeek R1蒸馏模型且保持原模型精度

[原帖发布了NexaQuant对DeepSeek R1 Distill模型量化的成果,评论围绕模型本身、量化策略、模型运行体验、对更多模型量化的期待以及对原帖一些内容的疑惑等展开,整体氛围较为积极且充满好奇。]

 ·  · 
模型与技术 新模型发布

Perplexity开源R1 1776:DeepSeek R1模型的后训练版本

[帖子关于Perplexity开源R1 1776模型,评论围绕模型名称、开源真实性、是否无偏见等多方面展开,同时夹杂对推特、Reddit等其他话题的讨论,氛围较为复杂多样。]

 ·  · 
模型与技术 性能对比

FUSEAI的DeepSeek R1 Distill(合并版)似乎更好

[原帖分享FuseAI的DeepSeek R1 Distill模型体验较好,评论从不同角度展开讨论,包括模型比较、技术经验、性能测试等,整体氛围比较平和专注于技术交流]

 ·  ·