模型与技术 技术讨论

构建恶意开源编码模型BadSeek

[原帖介绍恶意开源编码模型BadSeek展示AI系统易被植入后门且难检测,评论围绕模型安全性、潜在影响、伦理问题等展开,氛围较复杂且争议较多]

 ·  · 
模型与技术 技术讨论

我的Transformer为何有条状图案?

[关于Qwen 2.5 0.5B模型在显微镜下有条纹现象的讨论,包括从技术分析、幽默调侃到寻求更多信息等多种观点,整体氛围比较轻松且探索性强]

 ·  · 
模型与技术 技术讨论

跟MIT博士从零构建DeepSeek

[原帖宣传从零构建DeepSeek的教学视频,评论围绕教学者身份、视频内容缺失、炫耀背景、对内容的怀疑与赞赏等展开,整体氛围较多元。]

 ·  · 
模型与技术 技术讨论

ReflectionR1蒸馏过程的实时观察

[帖子围绕ReflectionR1蒸馏过程展开,主要讨论了模型学习、模型通用性、模型蒸馏等专业话题,也有一些低热度的如招呼、类比等话题,整体氛围较为专业且理性。]

 ·  · 
模型与技术 技术讨论

大语言模型(LLMs)究竟如何做到的?

[围绕LLMs如何运作展开讨论,涉及图像理解、计数等任务中的表现,包含对其机制、能力、局限性等方面的观点,讨论氛围较为理性且多元]

 ·  · 
模型与技术 技术讨论

谷歌可能未意识到的潜在突破论文

[原帖认为某论文可能是谷歌未察觉的突破,评论围绕论文展开,包括模型相关的技术、成果、操作、比较等多方面讨论,整体氛围积极且充满探索性]

 ·  · 
模型与技术 技术讨论

安卓NPU使用8B的Llama处理约16k个令牌的提示

[该讨论围绕Android NPU使用llama 8B处理约16k个标记展开,涉及技术性能、不同芯片、处理速度、应用情况等多方面内容,氛围较为理性且充满好奇]

 ·  · 
模型与技术 技术讨论

Andrej Karpathy对大语言模型深度探究要点

[原帖是对Andrej Karpathy关于LLMs的长视频的15分钟总结,评论包括对原帖的感谢、认可、指正,也有对LLMs相关概念如开源模型的讨论和关于入门的提问,整体氛围积极友好]

 ·  · 
模型与技术 技术讨论

OpenAI隐藏o3 - mini中的实际思考标记

[原帖质疑OpenAI在o3 - mini中隐藏实际思维标记,众多评论从不同角度发表看法,包括对OpenAI行为的认同、质疑、推测以及对ChatGPT问题的讨论,整体氛围热烈且观点多元]

 ·  · 
模型与技术 技术讨论

使用Unsloth以低显存训练推理模型

[原帖介绍Unsloth的推理功能及低VRAM需求等成果,评论者们表达认可、感激、期待,同时提出众多关于技术、模型、设备等方面的疑问]

 ·  ·