从零开始‘氛围编码’机器学习模型,涉及Gemini-2.5
[原帖作者分享自己在没有太多经验下“Vibe Coded”一个ML模型的成果,评论者有肯定、质疑、建议等多种态度,涉及模型成果、算法、代码文档等多方面的讨论,整体氛围比较多元]
[原帖作者分享自己在没有太多经验下“Vibe Coded”一个ML模型的成果,评论者有肯定、质疑、建议等多种态度,涉及模型成果、算法、代码文档等多方面的讨论,整体氛围比较多元]
[原帖对GPT - 4o图像生成进行逆向工程研究,评论者们围绕其模型架构、生成机制等进行推测、质疑、赞同,整体氛围积极且充满探索性]
[原帖询问llama.cpp在特定模型下扩展上下文的参数设置,评论从测试结果、简化设想、模型失控、性能下降、替代方案等多方面给出回应,整体氛围偏向技术交流探讨]
[微软开发向LLMs添加知识的更高效方式,引发关于测试可行性、概念成果、知识交互方式、成果实用性、名称准确性等多方面的讨论,氛围以理性探讨为主]
[原帖分享微软结合RAG和微调的技术,评论者有的分享相关知识或经历,有的对原帖观点表示认可,也有提出异议认为不是新方法,还有人进行相关技术比较并提及其他有前景的技术]
[围绕GPT4o图像生成器和Gemini Flash工作原理及特定领域复用展开讨论,包含多种猜测、解答、推荐等,氛围积极且充满探索欲]
[原帖认为注意力、规模和强化学习就能达到人类水平代理性能,评论中有人赞同、有人反对,还讨论了Transformer的问题、人类与LLMs对比、泛化能力等话题,氛围比较热烈且充满争议]
[原帖关于transformers工作原理的图表和解释引发讨论,评论包含对原帖的肯定、相关技术原理探讨、资源分享以及输入输出关联的新观点等,整体氛围积极友好]
[围绕CPU - only的LLM架构展开讨论,涉及CPU与GPU在LLM运算中的比较、不同架构的优劣、性能与价格等多方面,整体氛围积极且充满技术探讨]
[原帖分析不同LLMs推理轨迹单词统计,发现很多模型与R1有相似字统计,评论者们从模型训练、OpenAI策略、紫队攻防演练、对原帖工作态度等多方面展开讨论]