是否存在我可以下载其确切训练数据的指令微调(聊天)大型语言模型?
讨论总结
原帖询问是否存在能下载确切训练数据的指令调优(聊天)大型语言模型(LLMs)。评论中,部分用户推荐了如AllenAI OLMo 7B Instruct、Pythia、Alpaca等模型,并给出了相关资源链接。也有用户指出存在部分模型拥有完全开放的数据集,如Olmo、Falcon、DCLM和HF SmolLLM。同时,还有用户解释了数据不公开的原因,包括数据集规模大以及涉及版权问题等,此外也有一些其他的推荐内容。整体讨论氛围比较平和,大家主要是在分享信息。
主要观点
- 👍 存在AllenAI OLMo 7B Instruct这样可获取指令调优数据集的模型
- 支持理由:评论者dsjlee给出了其在GitHub和Hugging Face上的相关链接。
- 反对声音:无。
- 🔥 部分模型(Olmo、Falcon、DCLM、HF SmolLLM)拥有完全开放的数据集
- 正方观点:评论者“llama_in_sunglasses”指出这些模型具有完全开放的数据集。
- 反方观点:无。
- 💡 Pythia是满足条件的LLMs且具有开放性
- 解释:Ansky11认为Pythia是开放的,有可复制训练的脚本。
- 💡 Alpaca是指令遵循数据集,原始数据来自斯坦福且有GitHub链接
- 解释:Chongo4684指出其原始数据用于训练Alpaca模型,还给出了GitHub链接。
- 💡 目前没有可以下载训练数据的指令调优(聊天)LLMs
- 解释:有评论者指出数据不公开的原因,如数据集规模大、版权问题等。
金句与有趣评论
- “😂 AllenAI OLMo 7B Instruct "
- 亮点:直接给出了一个符合原帖部分需求的模型名称。
- “🤔 Literaly only Olmo, Falcon, DCLM, and HF SmolLLM or whatever (uses FineWeb) have totally open datasets.”
- 亮点:明确指出了拥有完全开放数据集的模型。
- “👀 Alpaca is definitely an instruction following dataset.”
- 亮点:对Alpaca模型的性质给出了明确的定义。
情感分析
[总体情感倾向为中性,主要是在分享信息和观点,没有明显的分歧点。大家只是在针对原帖的问题给出自己的答案或者补充相关知识,没有出现激烈的争论或者情绪化的表达]
趋势与预测
- 新兴话题:[关于小型模型基于findweb - edu训练以及顶级模型保密数据和训练方法的有效性的讨论可能会引发后续更多关于模型训练策略的讨论]
- 潜在影响:[对LLMs领域的模型训练、数据获取等方面的研究和发展有一定的参考意义,有助于相关人员更好地了解不同模型的情况]
详细内容:
标题:关于可获取训练数据的 LLMs 的热门讨论
在 Reddit 上,有一个帖子引发了众多关注,该帖询问“是否存在可以下载其确切训练数据的指令调整(聊天)LLMs?” 此帖获得了大量的点赞和众多评论。
帖子引发的主要讨论方向集中在哪些 LLMs 公开了训练数据,以及这些模型作为聊天机器人的性能如何。核心问题在于能否找到实用且未使用受版权保护数据进行训练的 LLMs。
有人提到,AllenAI OLMo 7B Instruct 公开了相关数据,如“GitHub - allenai/open-instruct”和“allenai/OLMo-7B-Instruct · Hugging Face”。还有人指出,这只是指令调整数据集,想知道是否有用于预训练语言模型的自由文本语料库,并提供了“GitHub - allenai/dolma: Data and tools for generating and inspecting OLMo pre-training data.”。
有人表示,只有 Olmo、Falcon、DCLM 和 HF SmolLLM 等有完全开放的数据集。但也有人质疑它们作为聊天机器人是否好用。有人认为 Olmo 和 Falcon 是可用的模型,但自己尚未尝试 DCLM 或 SmolLLM。
有人提到 Pythia 是开放的,还提供了复制训练的脚本。还有人指出 Alpaca 是一个指令跟随数据集,其原始数据来自斯坦福,并提供了相关链接“GitHub - gururise/AlpacaDataCleaned: Alpaca dataset from Stanford, cleaned and curated”。
有人认为,由于训练数据集规模庞大,且包含大量受版权保护的文本,如出版书籍、YouTube 转录、电影字幕、歌词等,所以很多数据是隐藏的,若被版权所有者发现可能会引发巨额诉讼。
有人提到 Einstein 可进行开放微调,如“https://huggingface.co/Weyaxi/Einstein-v7-Qwen2-7B”,并提供了教程“https://mlabonne.github.io/blog/posts/2024-07-29_Finetune_Llama31.html”。
总之,这场讨论展现了人们对于 LLMs 训练数据公开性和实用性的关注与思考。
感谢您的耐心阅读!来选个表情,或者留个评论吧!