模型与技术 技术讨论

Llama 3.2 Vision在Unsloth中可微调,16GB VRAM内且速度快2倍

[原帖介绍Unsloth对多种视觉/多模态模型的支持,评论者们表达认可、感谢,也提出如表格提取中合并单元格、4位bnb量化微调等技术相关的疑问、观点以及个人的使用需求等内容,整体氛围积极]

 ·  · 
模型与技术 技术讨论

通过神经细胞自动机(NCA)在大型语言模型(LLM)中实现推理

[原帖探讨在LLMs中通过神经细胞自动机实现推理,评论有以诙谐调侃的,有从技术角度深入探讨的,还有表达兴趣、提出疑问的,整体氛围积极但存在个别冒犯性言论。]

 ·  · 
模型与技术 技术讨论

新采样策略:T=3.0时准确率达75%

[帖子介绍新的采样策略top - nsigma,评论围绕论文标题、与其他技术的相似性、技术原理、方法优势等展开讨论,整体氛围偏技术交流]

 ·  · 
模型与技术 技术讨论

精度扩展定律:BitNet是否好得难以置信?

[关于“Scaling Laws for Precision”论文的讨论,涉及bitnet、量化、预训练等多方面内容,有不同观点交流,整体氛围理性专业]

 ·  · 
模型与技术 技术讨论

BitNet项目的问题在哪里?

[围绕BitNet展开的技术讨论,涉及与GPU能耗、模型性能相关内容,有多种观点且存在争议,总体氛围理性探讨]

 ·  · 
模型与技术 技术讨论

如何顺利使用Qwen2.5 - Coder - Instruct

[原帖给出无挫折使用Qwen2.5 - Coder - Instruct的建议,评论者们围绕该模型的参数设置、性能表现、不同部署方式等方面展开讨论,氛围较为理性探讨。]

 ·  · 
模型与技术 技术讨论

阿里如何在Cursor中运行通义千问32B

[围绕阿里巴巴如何让Qwen 32B在Cursor中运行这一主题展开讨论,涉及运行效果、技术操作、软件特性、付费隐私等方面的多种观点,整体氛围是技术探讨]

 ·  · 
模型与技术 技术讨论

多语言模型与扩散模型的联合使用

[原帖讲述将多个LLMs和一个扩散模型一起运行的技术实验,评论从模型占用资源、类似功能已存在、模型组合意义等方面展开讨论,氛围较理性客观]

 ·  · 
模型与技术 技术讨论

构建通用人工智能(AGI)之二:解决强化学习问题的思路

[原帖探讨用液态神经网络解决强化学习的信用分配问题并认为强化学习和神经网络可互换,引发众多讨论,大部分评论对原帖观点持怀疑或反对态度,氛围较消极,但也有少数肯定态度的声音]

 ·  · 
模型与技术 技术讨论

MoE模型为何不那么流行

原帖探讨MoE模型不流行的原因,评论从性能、显存需求、训练难度、适用场景等多方面分析,整体氛围理性且深入。

 ·  ·