世界热资讯！Stack Overflow将向人工智能巨头收取训练数据费用

(资料图)

大型语言模型可以根据其训练数据中的网页、书籍和其他文本体中学习到的单词模式生成文本字符串。除了ChatGPT之外，这些程序还构成了搜索聊天机器人（如Microsoft Bing chat和Google"s Bard）的核心，并支持越来越多能够快速生成专业和创意文案的应用程序。而生成AI合成插图和视频的对应模型则利用从Pinterest和Flickr等图片数据集中收集到的照片等图像模式。

通常情况下，用于人工智能开发的数据集是通过非正式手段构建的，例如派遣软件从网站上抓取内容。在美国，这通常被认为是合法的，尽管版权问题和网站条款反对此做法仍存在争议。

一些网站，如Reddit和Stack Overflow更加友好。它们提供可下载的“数据转储”或实时数据门户，以帮助软件访问其API所知道的内容。在Stack Overflow的情况下，LLM开发者通过混合使用转储、API和抓取来获取数据，Chandrasekar说，这些都可以免费完成。

但是Chandrasekar表示，LLM开发者正在违反Stack Overflow的服务条款。根据其TOS中概述的内容，用户拥有他们在Stack Overflow上发布的内容，但所有内容都属于要求任何后来使用数据的人提到它来自哪里的知识共享许可证。Chandrasekar说：当AI公司将其模型出售给客户时，“无法归因于用于训练模型的每个社区成员及其问题和答案，从而违反了知识共享许可证”。

Stack Overflow和Reddit都没有发布定价信息。Reddit发言人Tim Rathschmidt表示“我们正在努力解决这个问题。并将在未来几周与合作伙伴分享更多信息。”Chandrasekar说，Stack Overflow将研究Reddit的策略，并咨询自己的潜在客户，其中一些已经就数据访问联系过他们。

一个潜在的定价路线图可能来自于埃隆·马斯克，他本月提高了访问Twitter数据的价格。50,000,000条推文的访问费用从每月$42,000起步。这是之前可免费获得的推文数量的三倍左右。在本周一条推文中，马斯克指责微软（一个主要人工智能开发者和OpenAI的紧密合作伙伴）“非法使用Twitter数据”进行算法训练。他没有详细说明，并补充说：会发起诉讼。

Stack Overflow和Reddit都将继续向某些人和公司免费授权数据。Chandrasekar表示，Stack Overflow只希望从为大型商业目的开发LLM的公司那里获得报酬。他说“当人们开始对像我们这样由社区构建的网站上构建的产品收费时，这就不是公平使用了”。

Reddit首席执行官Steve Huffman本周告诉《纽约时报》称，他不想给世界上最大的公司提供免费服务。他说：“爬取Reddit、产生价值却不将任何价值回馈给我们的用户是我们所反对的”。

标签：