当前位置：网站首页 >> 独立游戏 > >> 正文

人红是非多：大模型“犯法”，OpenAI大模型再再再再遭起诉-环球即时

时间：2023-06-30 13:24:18 来源：观察网

原创：亲爱的数据

【资料图】

OpenAI正面临集体诉讼，指控该公司使用网络抓取来训练其人工智能模型。原话是：以“前所未有的规模”盗用个人数据。

该诉讼称，OpenAI在使用从互联网上抓取的数据来训练其技术时侵犯了无数人的版权和隐私。该诉讼导致参与人工智能技术开发的公司面临越来越多的法律纠纷。

OpenAI，Microsoft和GitHub也在集体诉讼中被点名，声称他们的AI代码生成软件Copilot违反了版权法。

诉讼已经不是第一次，甚至国外有版权网站专门整理了诉讼清单。

这次的具体细节是：

一家总部位于美国加利福尼亚州的律师事务所，正在对OpenAI提起集体诉讼，指控创建流行聊天机器人ChatGPT的人工智能公司使用从互联网上抓取的数据来训练其技术时，大规模侵犯了无数人的版权和隐私。

“大规模”是肯定的，因为用的是“大数据”。

维基百科文章和家庭食谱博客版权都被侵犯了，这起诉讼背后的律师事务所克拉克森此前曾就从数据泄露到虚假广告等问题提起大规模集体诉讼。

该公司希望代表“信息被盗和商业盗用的真实人物，以创造这种非常强大的技术，”该公司的管理合伙人瑞安克拉克森说。

该案于周三上午在加利福尼亚州北区的联邦法院提起。OpenAI的发言人没有回应置评请求。

这起诉讼触及了一个悬而未决的重大问题的核心，这个问题悬而未决。

“生成”人工智能工具（如聊天机器人和图像生成器）激增。该技术的工作原理是从开放的互联网上摄取数十亿个单词，并学习在它们之间建立推论。

在消耗足够的数据后，由此产生的“大型语言模型”可以预测在响应提示时该说什么，使他们能够写诗，进行复杂的对话并通过专业考试。但是，写下数十亿字的人从未同意让像OpenAI这样的公司利用它们来牟利。

“所有这些信息都是大规模获取的，数据所有者从未同意被大型语言模型利用，”克拉克森说。

不愧是集体诉讼，该公司已经有一群原告，并正在积极寻找更多原告。

不过集体诉讼的难度大，诉讼周期长。也就是我们常说的维权成本高。

使用从公共互联网中提取的数据来训练可能对开发人员来说非常有利可图的工具的合法性尚不清楚。一些人工智能开发人员认为，使用来自互联网的数据应被视为“合理使用”，这是版权法中的一个概念，如果材料以“变革性”方式进行更改，则会产生例外。

“变革性”能将大模型免责吗？

合理使用问题是“一个悬而未决的问题，我们将在未来几个月和几年内在法庭上看到它，”主要代表科技初创企业的Gunderson Dettmer公司的知识产权律师凯瑟琳·加德纳（Katherine Gardner）说。

艺术家和其他创意专业人士可以证明他们的版权作品被用来训练人工智能模型，可能会反对使用它的公司，但那些只是在网站上发布或评论的人不太可能赢得赔偿。

“当你把内容放在社交媒体网站或任何网站上时，你通常会向网站授予非常广泛的许可，以便能够以任何方式使用你的内容，”加德纳说。

“对于普通最终用户来说，很难声称他们有权获得任何形式的付款或补偿。毕竟，作为大模型训练的一部分数据是使用别人的数据。

该诉讼还增加了越来越多的法律挑战，这些公司正在建设并希望从人工智能技术中获利。11月，针对OpenAI提起了集体诉讼，Microsoft这些公司如何使用Microsoft拥有的在线编码平台GitHub中的计算机代码来训练AI工具。

今年2月，Getty Images起诉了规模较小的人工智能初创公司Stability AI，指控该公司非法使用其照片来训练其图像生成机器人。本月，OpenAI被美国佐治亚州的一位电台主持人起诉诽谤，他说ChatGPT制作的文字错误地指控他欺诈。

OpenAI并不是唯一一家使用从开放互联网上抓取的大量数据来训练其AI模型的公司。谷歌、Facebook、Microsoft和越来越多的其他公司都在做同样的事情。但克拉克森决定追随OpenAI，因为它在去年通过ChatGPT吸引公众的想象力时，在刺激其更大的竞争对手推出自己的人工智能方面发挥了作用，克拉克森说。

“他们是点燃这场人工智能军备竞赛的公司，”他说。“他们是自然的第一个目标。

OpenAI没有分享其最新型号GPT4的数据类型，但该技术的先前版本已被证明已经消化了维基百科页面，新闻文章和社交媒体评论。谷歌和其他公司的聊天机器人也使用了类似的数据集。

美国监管机构正在讨论制定新的法律，要求公司提高透明度，说明哪些数据进入了他们的人工智能。法庭案件也有可能促使法官迫使像OpenAI这样的公司交出有关其使用哪些数据的信息，知识产权律师加德纳说。

一些公司试图阻止人工智能公司抓取他们的数据。据英国《金融时报》报道，今年4月，音乐发行商环球音乐集团要求苹果和Spotify封锁。社交媒体网站Reddit正在关闭对其数据流的访问，理由是大型科技公司多年来如何抓取其网站上的评论和对话。

Twitter老板埃隆·马斯克（Elon Musk）威胁要起诉Microsoft使用从该公司获得的Twitter数据来训练其人工智能。不过，马斯克正在建立自己的人工智能公司。

针对OpenAI的新集体诉讼在其指控中更进一步，认为该公司对注册使用其工具的人不够透明，以至于他们放入模型中的数据可能用于训练公司将从中赚钱的新产品，例如其插件工具。

诉讼还声称OpenAI在确保13岁以下的儿童不使用其工具方面做得不够，多年来包括Facebook和YouTube在内的其他科技公司一直被指责。确实如此，亲爱的数据此前翻译过这类报道。

有网友认为，

1.大模型活该，确实用了很多别人的隐私和数据，

2.美国会率先打这种官司。

亲爱的数据认为，美国的此类案件，对我国极有启示意义，一方面，对于数据所有方，企业，个人如何防范和保障自己的利益，另一方面，对于大模型制造商应该如何避免犯法。

如果需要全文157页的诉讼全文PDF，欢迎联系我们。