第168期
2024 年 10 月 9 日
  北美智权官网 智权报文章分类/搜寻   历期智权报   订阅北美智权报  
 
AI训练数据集侵犯了著作权?LAION在德国获得胜诉
袁如陵/台湾专利师

人工智能(AI)的日益普及,为创意产业带来了许多新的可能性,但各式各样的法律风险也随之而来,特别是在著作权方面;在德国汉堡地方法院的一起诉讼就凸显了这些挑战。此诉讼案是一名摄影师起诉 LAION未经他的同意,在人工智能训练数据集中使用他拍摄的照片。而引起广泛关注的原因,是因为此案是目前世界先进国家中,少数已经针对人工智能技术做出判决的著作权案件。


摄影:北美智权/唐铭伟

LAION e.V. (Large-scale Artificial Intelligence Open Network,大型人工智能开放网络) 是一家德国非营利组织,致力于开源人工智能模型和数据集的建置,主要的工作是将网络上的公开图片制作成数据集,并提供给 AI 开发商训练人工智能模型使用,例如 Google Brain 就曾经使用过其制作的 LAION-400M 数据集,知名 AI 图片生成引擎 Midjourney、Stable Diffusion 也是利用 LAION-5B 数据集训练其 AI 系统。本案的主角就是此 LAION-5B 数据集,其中包含超过 50 亿张从网络上搜集的图片和文字描述[1]

案件背景

原告 Robert Kneschke 则是一位德国摄影师,他于Have I Been Trained网站发现自己拍摄的照片出现在 LAION-5B 数据集中。这些照片原本收录于图库网站 bigstock.com 供大众免费浏览,但带有水印,并附注说明未经许可不得复制。

当 Robert Kneschke 要求停止侵权行为时,LAION 并未配合,甚至在收到警告信后,还寄了一张 887 欧元的律师费账单给原告[2]。Robert Kneschke 因此愤而提起诉讼,指控 LAION 未经他同意就下载照片使用。被告LAION 承认自己下载了照片,但认为自己的行为受到德国《著作权法》(Urheberrechtsgesetz, UrhG)中例外条款的保护,包括:

第 44a 条的「暂时性重制」(Temporary acts of reproduction):如果复制行为是「技术过程所必要」(an integral and essential part of a technical process)的,并且「没有独立的经济价值」(have no independent economic significance),就允许对作品进行临时、短暂的复制。举例来说,浏览器会暂时储存网页的内容,这是显示网页所必要的,也没有独立的经济价值,就可能被认定为「暂时性重制」。另外,复制的目的必须是为了「传输」或「合法使用作品」。

第 44b 条的「文字和数据探勘」(Text and data mining):允许个人或机构为了进行数据探勘(从数据中萃取出有价值的信息而进行的自动化分析)而复制作品的行为。不过著作权人也可以选择保留自己的权利,主动以「机器可读」的形式(machine-readable format)「选择退出」(opt-out),此时第三方就不能任意使用作品。例如内容提供商可以在网页上使用 robot.txt,让自动化的第三方爬虫快速判断内容是不可主动抓取的。

第 60d 条的「为科学研究目的之文字和数据探勘」(Text and data mining for scientific research purposes)::例如大学、科学研究院等研究机构,只要不是追求商业利益、或是为了公益,就可以使用他人的作品。另外,文化遗产机构如图书馆、博物馆,或是不追求商业利益的个人使用者也同样可受到豁免。与第 44b 条不同的是,著作权人无法选择退出。

以上条款中,第 44a 条是源自于欧盟《信息社会著作权指令》(InfoSoc Directive)中第 5 条第 1 项;而 44b 条及 60d 条则分别源自于欧盟《数字单一市场著作权指令》(DSM Directive)第 4 条及第 3 条。

这起诉讼于 2024 年 7 月 11 日在德国汉堡地区法院首次开庭审理,而法院于 2024 年 9 月 27 日做出对 LAION 有利于的判决。[3]

不适用 44a 条的「暂时性重制」

法院认为,LAION 对图片的复制行为并非「暂时性重制」,原因如下:

并非「暂时性或附带性」: 法院指出,暂时性重制的持续时间仅限于技术过程正常运作所需的时间,且应在达成目的后自动删除。虽然 LAION 在分析完成后会自动删除图片,但下载图片是 LAION 出于分析目的而进行的有意识且积极控制的获取过程,而非仅仅是分析过程的附带结果

未构成「技术过程的必要组成部分」: 法院认为,LAION 的下载行为是为了将图片用于其数据集中,并非网络传输的必要步骤

因此,LAION 的行为无法受到第 44a 条的豁免。

是否适用 44b 条的「文字和数据探勘」?

地院对此条款的适用性表达了意见,但并未作出最终决定。是否适用「文字和数据探勘」的关键点在于,图库 bigstock.com 是否有以「机器可读」的形式保留自己的权利?

判决中指出,bigstock.com 是以一般的文字在网页上显示声明:「您不得对:(...) 为任何目的使用自动程序、小程序、机器人或类似工具访问 XXX.com 网站或网站上的任何内容,包括(仅举例说明)下载内容、编制索引、或快取网站上的任何内容」。对此,法院倾向认为,就算图库网站 bigstock.com 没有使用 robot.txt,而是用此「自然语言」进行声明,只要当时的技术水准能够让机器理解其内容,就可以被视为「机器可读」。

有趣的是,在判决前的听证会中,双方就是在第 44b 条唇枪舌战,但法院最后的判决,却是仰赖接下来的第 60d 条,而一般数据探勘的判断标准仍然悬而未决。[4]

适用 60d 条的「为科学研究目的之文字和数据探勘」

法院裁定,LAION 下载 原告Kneschke 照片的行为适用60d条款的豁免,因此并未侵权。

LAION 属于研究机构:法院认为 LAION 是专注于人工智能研究的非营利组织,其建立数据集的目的是为了促进科学研究,符合 60d 条款中「研究机构」的要求。

LAION-5B 本身不具商业性:法院指出,LAION 将其数据集免费提供给公众使用,没有从中获取商业利益,因此符合 60d 条款中「非商业性」的要求。

LAION-5B 有商业用途,但仍然适用 60d 条:法院认为,LAION 无法预测数据集会被如何使用,所以即使有商业公司使用 LAION 的数据集,也不会影响 LAION 本身的非商业性质。

判决能成为制作数据集的避风港,但未必有利 AI 开发商

LAION 之所以能够胜诉,要归功于能让法官相信,LAION 是一个非商业性的研究机构,并将自己的行为包装在德国著作权法第 60d 条的例外条款之下:

LAION 本身没有储存图片,研究人员必须利用 LAION 所提供的工具「img2dataset」来下载感兴趣的子集以取得图片数据。而 LAION-5B 数据集事实上是一个「表格」,只包含图片的网址以及文字描述。

法院认为 LAION 的数据集是用于科学研究目的。

LAION 将数据集「免费公开」,符合「非商业性」的要求。

虽然原告指出LAION 与 Stability AI 等商业公司关系密切,而 Stability AI 就是使用 LAION-5B 数据集来训练其商业 AI 模型 Stable Diffusion;除此之外,LAION 曾接受商业公司的资金支持,甚至 LAION 的部分成员就任职于这些商业公司,明显存在利益关系。然而,法院认为重点是 LAION 自身的行为是否具有商业目的,并非资金来源,而也没有证据指出资金被 LAION 用于开发自己的商业产品。

不过客观上来说,似乎难以否认 Stability AI 与 LAION 有某种程度的依存关系(没有 LAION-5B,就难以打造 Stable Diffusion),只是在诉讼中原告无法成功举证 Stability AI 对 LAION 有实质的控制力。若原告选择上诉,这应该仍会是攻防的关键点。[5]

虽然 LAION 可以稍微松一口气。但反过来说,这个判决只有利于专门建立数据集的机构,而其他实际用 LAION-5B 数据集训练 AI 模型的厂商,如Midjourney、Stability AI 等明显更商业导向的公司,几乎不可能获得第 60d 条的豁免,只能冀望其他条款的适用。

「建立」与「使用」数据集是两种不同的行为

判决书中, 法院刻意区分「建立数据集」和「训练 AI 」这两种行为,并指出 LAION 仅负责建立数据集,并未参与 AI 模型的训练或使用,是否也是在暗示其他使用 LAION 数据集的厂商在法庭上会有不同的结果?另外,法院认为LAION 的复制行为不是「暂时性重制」,且网站只要以一般文字标注就可以符合「机器可读」的选择退出,对 AI 开发商是明显不利的。

话虽如此,那 OpenAI、Meta 等生成式 AI 的开发商,在德国就会陷入极大风险吗?倒也未必。在判决理由中,德国法院多次提及欧盟的《DSM Directive》以及《AI Act》,而在《AI Act》中欧盟似乎已经表态,训练 AI 模型应该也属于《DSM Directive》所规定的一种数据探勘,因此若商业公司尊重著作权人的选择退出声明,应可降低部分风险。

本案较为可惜的是,由于 LAION 的行为已经被判定属于第 60d 条的豁免,地院就没有对商业公司能够主张的 44b 条豁免做判断。

整体来说,本次判决仅涉及 LAION 行为的具体事实,不宜扩张解释。未来其他商业公司若进行数据探勘而被提起诉讼时,很可能会有不同的判决结果。 因此,AI 开发商仍需谨慎评估其数据收集方式,并积极寻求与著作权人合作,才能在合法的基础上发展 AI 技术。

 

备注:

 

责任编辑:李淑莲

 

好消息~北美智权报有微信公众号了!

《北美智权报》内容涵盖世界各国的知识产权新闻、重要的侵权诉讼案例分析、法规解析,以及产业与技术新知等等。

立即关注北美智权微信公众号→ NAIP_IPServices

~欢迎读者分享与转发~


【本文只反映专家作者意见,不代表本报立场。】

 
作者: 袁如陵 (Juling Yuan)
经历: 雃博股份有限公司 法务智权部经理
英国 Visiongain 产业分析师
鸿海精密 专利工程师
学历: 台湾大学 植物病理暨微生物学硕士
英国伦敦大学皇后玛丽学院 知识产权管理硕士
专长: 专利布局、企业品牌、商业情资调查、企业内训
资格: 台湾专利师
无形资产评价管理师初级
英国专利/商标代理人初试通过
中国专利代理人考试通过

 


 





感谢您阅读「北美智权报」,欢迎分享智权报连结。如果您对北美智权电子报内容有任何建议或欲获得授权,请洽:Editorial@naipo.com
本电子报所登载之文章皆受著作权保护,未经本公司授权, 请勿转载!
© 北美智权股份有限公司 & 北美联合专利商标事务所 版权所有 234 台湾地区新北市永和区福和路389号五楼 TEL:+886-2-8923-7350