模型与技术 技术讨论

从零开始‘氛围编码’机器学习模型,涉及Gemini-2.5

[原帖作者分享自己在没有太多经验下“Vibe Coded”一个ML模型的成果,评论者有肯定、质疑、建议等多种态度,涉及模型成果、算法、代码文档等多方面的讨论,整体氛围比较多元]

 ·  · 
模型与技术 技术讨论

通过网络标签逆向工程GPT - 4o图像生成:我的发现

[原帖对GPT - 4o图像生成进行逆向工程研究,评论者们围绕其模型架构、生成机制等进行推测、质疑、赞同,整体氛围积极且充满探索性]

 ·  · 
模型与技术 技术讨论

QwQ - 32B 128k扩展上下文的llama.cpp参数

[原帖询问llama.cpp在特定模型下扩展上下文的参数设置,评论从测试结果、简化设想、模型失控、性能下降、替代方案等多方面给出回应,整体氛围偏向技术交流探讨]

 ·  · 
模型与技术 技术讨论

微软开发更高效向大语言模型添加知识的方法

[微软开发向LLMs添加知识的更高效方式,引发关于测试可行性、概念成果、知识交互方式、成果实用性、名称准确性等多方面的讨论,氛围以理性探讨为主]

 ·  · 
模型与技术 技术讨论

微软开发RAG与微调结合技术优化领域适应

[原帖分享微软结合RAG和微调的技术,评论者有的分享相关知识或经历,有的对原帖观点表示认可,也有提出异议认为不是新方法,还有人进行相关技术比较并提及其他有前景的技术]

 ·  · 
模型与技术 技术讨论

GPT4与Gemini Flash图像生成器工作原理及技术探究

[围绕GPT4o图像生成器和Gemini Flash工作原理及特定领域复用展开讨论,包含多种猜测、解答、推荐等,氛围积极且充满探索欲]

 ·  · 
模型与技术 技术讨论

近期模型让我觉得注意力机制就足够了

[原帖认为注意力、规模和强化学习就能达到人类水平代理性能,评论中有人赞同、有人反对,还讨论了Transformer的问题、人类与LLMs对比、泛化能力等话题,氛围比较热烈且充满争议]

 ·  · 
模型与技术 技术讨论

制作Transformer工作原理的图表与解释

[原帖关于transformers工作原理的图表和解释引发讨论,评论包含对原帖的肯定、相关技术原理探讨、资源分享以及输入输出关联的新观点等,整体氛围积极友好]

 ·  · 
模型与技术 技术讨论

是否有仅基于CPU的大语言模型架构尝试?

[围绕CPU - only的LLM架构展开讨论,涉及CPU与GPU在LLM运算中的比较、不同架构的优劣、性能与价格等多方面,整体氛围积极且充满技术探讨]

 ·  · 
模型与技术 技术讨论

不同大语言模型推理轨迹中的单词统计分析

[原帖分析不同LLMs推理轨迹单词统计,发现很多模型与R1有相似字统计,评论者们从模型训练、OpenAI策略、紫队攻防演练、对原帖工作态度等多方面展开讨论]

 ·  ·