原贴链接

https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data（这是一个指向彭博社新闻文章的链接，具体内容需点击查看，这里仅为引用）

讨论总结

本次讨论围绕微软探查DeepSeek - Linked集团是否不当获取OpenAI数据展开。涉及多个方面的话题，包括模型创建的先后顺序、数据获取的正当性、公司间的关系以及版权侵犯等。整个讨论充满争议，评论者态度多为质疑和讽刺，从不同角度表达对微软、OpenAI等公司在这一事件中的看法。

主要观点

👍 OpenAI可能被质疑使用其他模型生成数据集
- 支持理由：评论以问句开启讨论，质疑OpenAI是否能证明未使用其他模型生成数据集。
- 反对声音：无明确反对声音。
🔥 对于谁是第一个创建变压器模型存在争议
- 正方观点：有人认为OpenAI是第一个创建生成式变压器模型的。
- 反方观点：也有人指出谷歌才是第一个创建变压器模型的。
💡 不同公司在人工智能模型发展方面各有成果
- 解释：如Deepseek、CloseAI、阿里巴巴等在推理模型方面的表现被提及。
💡 微软探查事件像是贼喊捉贼
- 解释：微软探查他人不当获取OpenAI数据，但自身可能存在类似问题。
💡 如果深入调查数据获取问题，OpenAI会面临比DeepSeek更大的麻烦
- 解释：暗示OpenAI数据方面存在复杂情况。

金句与有趣评论

“😂 TsaiAGw：Is OpenAI gonna prove they never user other model to gen dataset?”
- 亮点：开启整个讨论，提出关键质疑点。
“🤔 Competitive_Ad_5515：The transformer architecture was invented by eight researchers at Google—Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan Gomez, Łukasz Kaiser, and Illia Polosukhin—in their 2017 paper "Attention Is All You Need".”
- 亮点：提供关于变压器模型创建者的事实依据。
“👀 The thief cries "Stop thief"”
- 亮点：以简洁而讽刺的话语表达对微软探查事件的看法。
“🤔 If they open that can of worms, OpenAI would be in deeper shit than DeepSeek”
- 亮点：提出一种关于调查结果对OpenAI不利的观点。
“😂 Everyone and their mothers "improperly" obtained OAI data”
- 亮点：以调侃的方式表达存在很多不当获取OpenAI数据的情况。

情感分析

总体情感倾向为负面和质疑。主要分歧点在于微软探查事件是否合理、OpenAI数据获取是否正当以及各公司在人工智能领域发展中的角色。可能的原因是涉及公司利益、数据竞争以及知识产权等敏感问题。

趋势与预测

新兴话题：OpenAI的版权侵犯诉讼结果可能会引发后续讨论。
潜在影响：可能影响人工智能公司在数据获取、模型训练方面的策略制定，促使相关公司更加重视数据版权问题。

详细内容：

标题：微软调查与 DeepSeek 相关团体是否不当获取 OpenAI 数据

近日，Reddit 上一则关于“微软调查与 DeepSeek 相关团体是否不当获取 OpenAI 数据”的帖子引发了热烈讨论。该帖子获得了众多关注，评论数众多。

帖子主要围绕着 OpenAI 数据获取的合法性以及相关模型的发展展开。讨论的主要方向包括 OpenAI 是否借鉴其他模型来生成数据集、是否使用他人数据，以及与其他公司在模型开发上的竞争等。

文章将要探讨的核心问题是：在这场关于数据获取和使用的争议中，各方的观点和论据究竟如何，以及如何判定其中的合法性。

讨论焦点与观点分析：有人认为 OpenAI 可能会使用其他模型生成数据集，或者使用他人的数据，比如有人说：“GTP/OpenAI 会欣然向我吐出受版权保护的材料。” 有人指出 OpenAI 并非第一个创建 transformer 模型的，比如：“Google 才是第一个创建 transformer 模型的。”但也有人表示：“OpenAI 是第一个创建生成式 transformer 模型的。” 还有人提到了相关的法律诉讼，例如：“我似乎记得《纽约时报》在使用其内容作为训练数据方面有一些正在进行的诉讼。” 对于 OpenAI 数据获取的问题，存在多种不同的看法。有人认为这是侵权行为，有人则认为并非如此。比如有人说：“除非违反服务条款，否则你可以做所有这些，除了逐字出版。你理解整个论点吗？AI 模型是超集；它们基本上包含了其结构内每个可能的单词排列。这并不意味着它们以某种方式侵犯了可能存在的一切的版权，即使是它们所训练的东西，除非这些东西按原样存储在它们的网络中（实际上并非如此）。” 有人觉得这场争议很有趣，比如：“OpenAI 是操场上那个声称有护盾但说你不允许有的孩子。”

总之，关于微软对 DeepSeek 相关团体是否不当获取 OpenAI 数据的调查，Reddit 上的讨论丰富多样，观点各异，反映了人们对 AI 领域数据使用和知识产权问题的关注和思考。

讨论总结#

主要观点#

金句与有趣评论#

情感分析#

趋势与预测#

详细内容：#