谷歌搜索结果显示,互联网有64泽字节(ZB)的数据[1]。
1泽字节(ZB)=1,000,000,000太字节(TB)
目前,我们在训练模型时仍然处于太字节(TB)范围内。
根据Common Crawl,在2023年6月,整个网络爬取的内容包含约30亿个网页和约**400太字节(TB)**的未压缩数据。Common Crawl捕捉到的是网络中一小部分公开可访问的内容。互联网数据包含大量内容,其中许多内容并不打算公开访问或进行网络爬取。
私人组织中的大量数据,以及付费墙或阻止爬取的网站上的数据都存在。而且我们忽略了一件事——许多国家正在逐步采用技术进行日常任务。当然,西方国家已经覆盖了这些技术。但大多数亚洲和非洲国家仍在采用互联网。这就像一半的人口。随着物联网(IoT)使用的增加,数据只会不断增加。
在我看来,训练模型的下一步将不会使用生成的数据,而是购买这些大量私人部门的数据。我们不会用完数据。
[1]:根据IDC的数据,全球数据量在2020年达到了64泽字节(ZB),并预计到2025年将增长到175泽字节(ZB)。这一数字包括所有类型的数字数据,不仅仅是可在线访问的数据(Rivery)。
讨论总结
本次讨论主要围绕“我们是否会耗尽数据”这一主题展开,参与者们广泛讨论了互联网数据量的巨大、数据质量的问题、以及数据的可访问性和价值。评论者们普遍认为,尽管互联网数据量巨大,但数据质量参差不齐,存在大量“垃圾”数据。同时,随着技术的普及和物联网的发展,数据量将持续增长。此外,评论者们也指出,随着人们对数据价值的认识提高,数据的可访问性和可用性可能会受到限制。总体来看,讨论呈现出对数据量持续增长的乐观态度,同时也对数据质量和可访问性表示担忧。
主要观点
- 👍 互联网数据量巨大,且持续增长
- 支持理由:随着技术普及和物联网的发展,数据量将持续增长。
- 反对声音:数据质量参差不齐,存在大量“垃圾”数据。
- 🔥 数据质量参差不齐,存在大量“垃圾”数据
- 正方观点:数据质量对模型的性能至关重要。
- 反方观点:数据量的增加并不等同于模型智能的提升。
- 💡 数据的可访问性和可用性可能会受到限制
- 解释:随着人们对数据价值的认识提高,可能会采取措施保护数据。
- 🌐 随着技术普及,数据量将持续增长
- 解释:亚洲和非洲等地区的互联网技术普及将增加数据量。
- 💰 数据的价值和可访问性是双刃剑
- 解释:高质量数据难以获取且需要花费资金。
金句与有趣评论
- “😂 4onen:Counterpoint: people are realizing the value of their data and locking it down, so we will run out of freely accessible and financially easily accessible data.”
- 亮点:强调了数据价值和可访问性的矛盾。
- “🤔 olivierp9:and to add to this, most of the data on the internet is garbage. if you train on all that garbage, it’s garbage in garbage out”
- 亮点:指出了数据质量对模型训练的重要性。
- “👀 martinerous:It’s a double-edged sword. An "intelligent AI" also should know that garbage exists and how to sometimes find something useful there.”
- 亮点:提出了AI模型需要具备处理低质量数据的能力。
情感分析
讨论的总体情感倾向较为复杂,既有对数据量持续增长的乐观态度,也有对数据质量和可访问性的担忧。主要分歧点在于数据的质量和可用性,以及如何平衡数据量和数据质量。可能的原因包括技术发展的不确定性、数据保护意识的提高以及数据资源的分布不均。
趋势与预测
- 新兴话题:数据质量和数据可访问性的提升将成为未来讨论的重点。
- 潜在影响:高质量数据的稀缺性可能会推动数据市场的发展,同时促进数据处理和筛选技术的创新。
感谢您的耐心阅读!来选个表情,或者留个评论吧!