模型与技术 技术讨论

MIT博士教你从头构建大型语言模型

[原帖作者分享自己从MIT博士毕业且录制了44个构建LLM的视频,评论者有的表示赞赏和感谢,有的对原帖呈现方式提出批评,还有对视频相关的一些疑问和讨论]

 ·  · 
模型与技术 训练与微调技术

Phi-4微调:现支持超128K上下文长度及漏洞修复详情

[原帖介绍Phi - 4微调相关成果及Bug修复,评论者们围绕模型的性能、微调的相关技术、预训练兼容性等方面提问、发表看法、表示认可或好奇,整体氛围积极探索]

 ·  · 
模型与技术 新模型发布

0.5B QwQ模型可在iPhone运行

[围绕0.5B Distilled QwQ可在iPhone运行这一主题,大家从模型的实用性、性能表现、评估方式、运行相关疑惑以及一些特殊感受等多方面展开讨论,整体氛围较为理性且充满疑问]

 ·  · 
模型与技术 新模型发布

新的开源模型转向SAE,含首个Llama 3.3 70b的SAE

[新开源的用于模型导向的SAE引发讨论,涉及技术原理、应用场景、对不同模型的适用性、安全性等多方面,整体氛围积极且充满技术探讨氛围]

 ·  · 
模型与技术 其他

本地能与ElevenLabs质量和稳定性相匹配的TTS模型

[原帖作者寻求能与ElevenLabs在质量和一致性方面相匹配的本地TTS模型,尝试多种后失望,评论者们推荐了各种模型如Kokoro、Tortoise TTS + RVC等,并提及模型的优缺点、使用限制等内容,整体氛围积极交流且信息丰富]

 ·  · 
模型与技术 性能对比

在笔记本电脑上运行Phi 4并让Claude Sonnet进行自我比较

[原帖讲述在笔记本上运行Phi 4后让Claude比较自身,评论者对Phi 4有不同看法,包括与Qwen的比较、使用场景、运行中的量化问题等,总体氛围理性讨论且观点多元。]

 ·  · 
模型与技术 其他

莫恩德瑞姆2b新凝视检测脚本分享

[帖子关于Moondream 2b的凝视检测脚本,很多人表示感兴趣,也有人担忧该技术被用于员工监控,同时还有人对脚本的应用场景等进行了讨论]

 ·  · 
模型与技术 新模型发布

新的生成式模型TransPixar可保留透明度

[关于TransPixar新生成模型的讨论,涵盖功能、应用、存在的问题等多方面,既有正面评价也有质疑,整体氛围较多元。]

 ·  · 
模型与技术 新模型发布

新发布Moondream 2B视觉语言模型

[围绕Moondream 2B视觉语言模型发布,大家从功能、性能、与其他模型比较、在不同场景的应用等方面展开讨论,整体氛围积极且充满好奇]

 ·  · 
模型与技术 性能对比

Phi 4仅14B却在多项任务上优于70B的Llama 3.1

[围绕Phi 4与llama 3.1 70b等模型在多项任务中的表现展开讨论,涉及模型的优缺点、训练情况等,存在不同观点且有一定争议]

 ·  ·