模型与技术 技术讨论

为何语音(TTS/STT)模型比通用大型语言模型小得多?

[原帖对音频模型(TTS/STT)比大型语言模型(LLM)尺寸小提出疑问,评论从不同角度如功能差异、信息熵、知识量等进行解释,同时存在关于LLM是否理解单词的争议,整体氛围是积极的技术探讨。]

 ·  · 
模型与技术 技术讨论

大语言模型的"思考"为何如此紊乱?

[关于LLMs思考过程看似杂乱无章的现象,大家从不同角度进行讨论,包括强化学习、模型特性等方面,整体氛围是积极探讨]

 ·  · 
模型与技术 技术讨论

视觉大语言模型如何工作?模型实际看到什么?

[原帖询问视觉语言模型处理图像时到底能“看到”什么,评论从不同角度解释视觉LLM处理图像的原理、图像在被模型处理时的变化以及LLM缺乏空间意识的原因,整体氛围较为专业理性]

 ·  · 
模型与技术 技术讨论

制作包含对Sesame QoL改进的分叉Sesame - CSM仓库

[原帖分享了csm - multi仓库的改进,评论者就性能提升、版本相关、存在的技术问题等展开讨论,整体氛围较为积极,大家分享信息并提问。]

 ·  · 
模型与技术 技术讨论

指令撰写:如何让大语言模型深度推理并构建完整项目

[原帖介绍突破LLMs限制的工作成果及原理,评论围绕要求示例、计划发布、对成果的期待、质疑等展开,氛围比较多元]

 ·  · 
模型与技术 技术讨论

本地模型执行递归代理工作流的强大力量(Mistral - small)

[关于本地模型执行递归代理工作流(mistral - small)的帖子引发了诸多讨论,包括对模型能力、相关技术、项目进展、界面等方面的好奇与疑问,还有技术交流、项目反馈等内容,整体氛围积极且充满探索性]

 ·  · 
模型与技术 技术讨论

使用自定义Logits处理器控制QwQ和R1模型的"思考努力程度"

[原帖提出用自定义Logits处理器控制QwQ和R1模型的“思考努力”,大家在评论中表示认同、分享相关技术应用、补充建议等内容,整体氛围积极友好]

 ·  · 
模型与技术 技术讨论

Kokoro:提升大语言模型的情商

[围绕Kokoro研究展开讨论,涉及研究名称易混淆、缩写不佳、获取资源遇到付费墙等问题,总体氛围较多元]

 ·  · 
模型与技术 技术讨论

Meta重大发现:潜在标记有助于提升LLM推理能力

[Meta AI研究发现将文本压缩为潜在标记并用于训练有助于提高LLM推理能力,引发众多讨论,包括对研究成果价值、与其他研究的关系、是否在潜在空间推理等方面的不同看法,整体氛围热烈且充满争议]

 ·  · 
模型与技术 技术讨论

SIREN:信号智能共振编码网络

[原帖介绍SIREN及其在LLM长对话中的作用,评论者从技术角度探讨、表达惊叹与兴趣,也有对内容由AI生成的质疑,整体氛围积极且充满探索性]

 ·  ·