模型与技术 技术讨论

LLM中一个token包含多少比特?

[围绕LLMs中一个token有多少比特展开讨论,包含不同的计算方式、影响因素,同时也涉及对提问应持有的态度等方面,整体氛围比较专业且积极]

 ·  · 
模型与技术 技术讨论

OpenAI员工称o3与o1采用相同范式且进展迅速

[围绕OpenAI的o3展开讨论,涉及计算成本、模型比较、成果展示等方面,有对o3的质疑、对OpenAI成果的不同看法以及一些无关话题的讨论,整体氛围有争议性]

 ·  · 
模型与技术 技术讨论

AI模型产生幻觉是否因其不知己不知

[原帖探讨AI模型产生幻觉是否因为不知道自己有所不知,评论从模型特性、人类与模型对比、训练方式等多方面进行讨论,氛围理性且充满探索性]

 ·  · 
模型与技术 技术讨论

Tokenization并非LLMs的瓶颈

[原帖认为标记化不是LLMs的根本问题,评论者们从不同角度对原帖观点、研究内容、结论等进行质疑、讨论,氛围以理性探讨为主。]

 ·  · 
模型与技术 技术讨论

OpenAI员工推文透露o1和o3架构信息

[OpenAI员工关于o1和o3架构的推文引发讨论,包括对模型推理技巧的好奇、X登录限制的吐槽、o3 - mini的技术分析以及对o1和o3模型替换的猜测等内容,讨论氛围较为理性和平和]

 ·  · 
模型与技术 技术讨论

QwQ模型如何进行如4692*2的计算?

[围绕QwQ模型如何进行如4692*2这样的计算展开讨论,包含多种观点如模型可能通过学习、记忆训练数据、利用神经网络特性等,总体氛围是积极探讨且充满技术分析]

 ·  · 
模型与技术 技术讨论

多轻型语言模型协作能否优于单个模型

[原帖提出将多个不笨的LLMs置于环境中“争论”是否比单个表现更好,评论者从不同角度发表观点,包括与已知方法比较、实验设想、类比人类等,整体氛围积极探讨且各抒己见]

 ·  · 
模型与技术 技术讨论

部分大语言模型OCR能力为何强于专用OCR解决方案

[关于LLMs在OCR方面表现优于专用OCR解决方案的疑惑引发讨论,主要观点包括LLMs与OCR的工作原理差异、各自优势及局限,总体氛围是理性探讨]

 ·  · 
模型与技术 技术讨论

尝试与基础大型语言模型聊天取得进展

[原帖分享与基础LLMs聊天的进展,评论者有的质疑其新颖性、有的分享相关项目、有的表达尝试意愿、还有的给出负面评价]

 ·  · 
模型与技术 技术讨论

停止滥用模型 - 反对上下文垃圾填充

[原帖批判在模型上下文中填充垃圾内容的现象,评论者们围绕模型性能、数据管理、上下文需求等多方面展开讨论,有赞同也有质疑,整体氛围积极且充满技术探讨。]

 ·  ·