模型与技术 训练与微调技术

在9天内预训练一个大型语言模型😱😱😱

讨论围绕在9天内预训练大型语言模型(LLM)的技术细节、成本、数据集质量及其对未来技术发展的影响。

 ·  · 
模型与技术 训练与微调技术

2B Gemma微调,可能是未审查的

讨论围绕Gemma模型的微调、无审查处理及技术细节展开,涉及模型性能、审查问题和新手指导。

 ·  · 
模型与技术 训练与微调技术

有没有一种技术可以通过微调来训练模型记忆文档?

讨论围绕通过微调模型记忆文档的技术可行性、优缺点及替代方案展开,涉及RAG、RAFT等方法,情感倾向中性,存在一定争议。

 ·  · 
模型与技术 训练与微调技术

从零开始实现LLaMA 3.1 8B的功能调用,一些挑战与反馈!

讨论围绕从零实现 Llama 3.1 8B 的功能调用,涉及 JSON 与 YAML 的比较、模型决策能力、以及对流式传输原始令牌的需求。

 ·  · 
模型与技术 训练与微调技术

Llama CPP 取消了微调支持,你现在用什么?

讨论围绕Llama CPP移除微调支持后,用户寻求替代工具和解决方案,涉及多种GPU和微调技术。

 ·  · 
模型与技术 训练与微调技术

"我们会用完数据"真的吗?

讨论围绕“我们是否会耗尽数据”展开,主要关注互联网数据量的巨大、数据质量问题、可访问性和价值,以及随着技术普及和物联网的发展,数据量将持续增长。

 ·  · 
模型与技术 训练与微调技术

Unsloth微调演示笔记本:初学者指南!

本次讨论围绕一个针对初学者的微调演示笔记本展开,涵盖了数据集处理、TPU使用、模型支持等多个技术细节,同时涉及了错误解决和数据存储等实际问题。

 ·  · 
模型与技术 训练与微调技术

愚蠢的问题:是否可以在Blender文档上训练一个LLM?

讨论了如何通过训练大型语言模型(LLM)来掌握Blender的使用知识和编写Python脚本的能力,涉及数据整合、上下文长度、文档压缩等技术挑战和解决方案。

 ·  · 
模型与技术 训练与微调技术

有人尝试过使用字符级别的“分词器”训练大型语言模型吗?

讨论围绕使用字符级别分词器训练大型语言模型(LLMs)的可行性、效果及挑战,涉及训练时间、内存需求、模型性能和文化偏见等多个方面。

 ·  · 
模型与技术 训练与微调技术

微调LLM用于文本摘要

讨论围绕如何微调大型语言模型(LLM)进行领域特定文本摘要任务,涉及训练样本数量、模型选择和数据集多样性等关键问题。

 ·  ·