模型与技术 新模型发布

芝麻实时语音对话模型媲美OpenAI

[这是关于Sesame实时对话音频模型的讨论,大家普遍对演示效果表示惊叹,期待模型开源或发布权重,同时也指出了模型存在的一些问题。]

 ·  · 
模型与技术 新模型发布

一日内发布两款扩散式大语言模型:勿忽视弱者

[关于同一天发布的两个扩散LLMs展开讨论,有消极看法如否定其可用性,也有积极期待其促进创新,还涉及到模型性能比较、试用体验等多方面内容]

 ·  · 
模型与技术 模型选择

RTX 3060 12GB VRAM上运行的最佳模型

[原帖询问在Rtx 3060 12gb vram上运行最佳模型用于编程帮助,评论者们纷纷给出各种模型推荐及相关建议,同时也涉及一些关于模型效果和硬件适配性等方面的讨论,整体氛围比较平和且专注于技术交流。]

 ·  · 
模型与技术 技术讨论

深擎发布第四弹:双向管道并行算法DualPipe

[这是一个关于DeepSeek的DualPipe双向管道并行算法的讨论,涉及算法原理、作用、效率、对不同运行场景的影响等,同时也包含对原帖语言风格的看法以及对DeepSeek的期待等内容,整体氛围充满技术探讨的氛围。]

 ·  · 
模型与技术 性能对比

基于扩散的"小型"编码LLM,标记生成速度比基于变换器的LLM快10倍(在H100上显然为1000个标记/秒)

[围绕一个比基于变压器的LLM在令牌生成快10倍的基于扩散的小型编码LLM,人们讨论其性能、效率、与其他模型关系、在本地运行的硬件需求等多方面内容,整体氛围积极且充满好奇。]

 ·  · 
模型与技术 其他

Deepseek发布R1 Mini时我都不会察觉

[关于Deepseek的R1模型,人们将蒸馏模型错误命名为R1,这一行为对社区有不良影响、造成用户混淆,大家就Ollama是否该负责、Deepseek的命名方式、现状是否会改变等方面存在不同观点,同时还有模型对比、训练等相关讨论]

 ·  · 
模型与技术 新模型发布

LLaDA - 大型语言扩散模型(权重+演示)

[帖子介绍LLaDA - 大型语言扩散模型相关资源,评论围绕模型特点、性能、与人类大脑思维方式类比、存在的问题及应用前景等展开讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 性能对比

vLLM引入FlashMLA,输出吞吐量已提升2 - 16%

[vLLM引入FlashMLA提升输出吞吐量,多数评论从技术角度探讨如对不同模型、硬件的影响,也涉及API价格和竞争,同时有部分不相关的期待性评论,整体氛围较平和理性]

 ·  · 
模型与技术 性能对比

Perplexity R1 1776解决复杂问题时表现逊于DeepSeek R1

[原帖指出Perplexity R1 1776在复杂问题上表现不如DeepSeek R1,评论者从多个角度如审查、微调、公司策略等讨论模型性能差的原因,整体对Perplexity评价负面。]

 ·  · 
模型与技术 新模型发布

Phi模型家族:小型语言模型(SLMs)的崛起!

[围绕Phi模型家族展开讨论,涉及Phi - 4系列模型的性能、规模、功能支持等方面,还有小型语言模型的使用效果等话题,整体氛围较为理性讨论且有部分争议]

 ·  ·