模型与技术 新模型发布

量化DeepSeek R1蒸馏模型且保持原模型精度

[原帖发布了NexaQuant对DeepSeek R1 Distill模型量化的成果,评论围绕模型本身、量化策略、模型运行体验、对更多模型量化的期待以及对原帖一些内容的疑惑等展开,整体氛围较为积极且充满好奇。]

 ·  · 
模型与技术 新模型发布

Perplexity开源R1 1776:DeepSeek R1模型的后训练版本

[帖子关于Perplexity开源R1 1776模型,评论围绕模型名称、开源真实性、是否无偏见等多方面展开,同时夹杂对推特、Reddit等其他话题的讨论,氛围较为复杂多样。]

 ·  · 
模型与技术 新模型发布

Zonos:16亿参数的开源文本转语音模型

[原帖分享Zonos模型,评论围绕其多方面展开,包括技术问题、与其他模型比较、不同系统运行情况、功能期待等,整体氛围积极且充满探索性]

 ·  · 
模型与技术 新模型发布

Drummer"s Skyfall 36B v2:Mistral 24B 2501升级持续训练成果

[围绕Drummer"s Skyfall 36B v2模型展开讨论,包括模型测试情况、性能、审查、协议等方面,整体氛围积极且充满好奇]

 ·  · 
模型与技术 新模型发布

新型线性复杂度Transformer架构性能提升

[新的具有线性复杂度的Transformer架构性能改进,但大家对其在不同场景下的扩展性、是否真的是巨大突破、与其他算法对比等存在多种观点,整体讨论氛围积极探索]

 ·  · 
模型与技术 新模型发布

Mistral AI推出Mistral Saba

[围绕Mistral Saba这一未开源的AI模型,主要讨论其在中东和南亚语言方面的特性、对创业的影响、模型性能以及印度LLM公司的相关话题,讨论氛围较为理性]

 ·  · 
模型与技术 新模型发布

Meta脑到文本AI取得重大进展

[Meta的脑到文本AI研究引发讨论,涉及隐私、成果评价、未来影响等多方面,观点包括赞同其对失能者有益,也有担忧隐私被侵犯等,整体氛围复杂多元。]

 ·  · 
模型与技术 新模型发布

自制70亿参数UI推理模型仅用450行数据

[原帖展示用450行数据构建70亿参数UI推理模型UIGEN - T1 - 7B,评论者有认可赞赏、对模型应用与性能的探讨、对构建过程的好奇以及指出模型存在的问题等,整体氛围积极且充满技术探讨性]

 ·  · 
模型与技术 新模型发布

Deepseek R1成Hugging Face最受欢迎模型

[围绕DeepSeek R1在Hugging Face上成为最受欢迎模型展开讨论,涉及模型的下载量、运行条件、性能比较、受欢迎原因以及衍生出的相关技术问题等,情感倾向较为多元]

 ·  · 
模型与技术 新模型发布

SambaNova推出最高效的最快DeepSeek - R1 671B

[关于SambaNova推出DeepSeek - R1 671B的讨论,涉及模型的各种性能、标题风格、企业解决方案等多方面,既有正面评价也有负面评价和质疑]

 ·  ·