366期
2024 年 10 月 09 日
  北美智權官網 智權報文章分類/搜尋   歷期智權報   訂閱北美智權報  
 
AI訓練資料集侵犯了著作權?LAION在德國獲得勝訴
袁如陵╱台灣專利師

人工智慧(AI)的日益普及,為創意產業帶來了許多新的可能性,但各式各樣的法律風險也隨之而來,特別是在著作權方面;在德國漢堡地方法院的一起訴訟就凸顯了這些挑戰。此訴訟案是一名攝影師起訴 LAION未經他的同意,在人工智慧訓練資料集中使用他拍攝的照片。而引起廣泛關注的原因,是因為此案是目前世界先進國家中,少數已經針對人工智慧技術做出判決的著作權案件。


攝影:北美智權/唐銘偉

LAION e.V. (Large-scale Artificial Intelligence Open Network,大型人工智慧開放網路) 是一家德國非營利組織,致力於開源人工智慧模型和資料集的建置,主要的工作是將網路上的公開圖片製作成資料集,並提供給 AI 開發商訓練人工智慧模型使用,例如 Google Brain 就曾經使用過其製作的 LAION-400M 資料集,知名 AI 圖片生成引擎 Midjourney、Stable Diffusion 也是利用 LAION-5B 資料集訓練其 AI 系統。本案的主角就是此 LAION-5B 資料集,其中包含超過 50 億張從網路上蒐集的圖片和文字描述[1]

案件背景

原告 Robert Kneschke 則是一位德國攝影師,他於Have I Been Trained網站發現自己拍攝的照片出現在 LAION-5B 資料集中。這些照片原本收錄於圖庫網站 bigstock.com 供大眾免費瀏覽,但帶有浮水印,並附註說明未經許可不得複製。

當 Robert Kneschke 要求停止侵權行為時,LAION 並未配合,甚至在收到警告信後,還寄了一張 887 歐元的律師費帳單給原告[2]。Robert Kneschke 因此憤而提起訴訟,指控 LAION 未經他同意就下載照片使用。被告LAION 承認自己下載了照片,但認為自己的行為受到德國《著作權法》(Urheberrechtsgesetz, UrhG)中例外條款的保護,包括:

第 44a 條的「暫時性重製」(Temporary acts of reproduction):如果複製行為是「技術過程所必要」(an integral and essential part of a technical process)的,並且「沒有獨立的經濟價值」(have no independent economic significance),就允許對作品進行臨時、短暫的複製。舉例來說,瀏覽器會暫時儲存網頁的內容,這是顯示網頁所必要的,也沒有獨立的經濟價值,就可能被認定為「暫時性重製」。另外,複製的目的必須是為了「傳輸」或「合法使用作品」。

第 44b 條的「文字和資料探勘」(Text and data mining):允許個人或機構為了進行資料探勘(從資料中萃取出有價值的資訊而進行的自動化分析)而複製作品的行為。不過著作權人也可以選擇保留自己的權利,主動以「機器可讀」的形式(machine-readable format)「選擇退出」(opt-out),此時第三方就不能任意使用作品。例如內容提供商可以在網頁上使用 robot.txt,讓自動化的第三方爬蟲快速判斷內容是不可主動抓取的。

第 60d 條的「為科學研究目的之文字和資料探勘」(Text and data mining for scientific research purposes):例如大學、科學研究院等研究機構,只要不是追求商業利益、或是為了公益,就可以使用他人的作品。另外,文化遺產機構如圖書館、博物館,或是不追求商業利益的個人使用者也同樣可受到豁免。與第 44b 條不同的是,著作權人無法選擇退出。

以上條款中,第 44a 條是源自於歐盟《資訊社會著作權指令》(InfoSoc Directive)中第 5 條第 1 項;而 44b 條及 60d 條則分別源自於歐盟《數位單一市場著作權指令》(DSM Directive)第 4 條及第 3 條。

這起訴訟於 2024 年 7 月 11 日在德國漢堡地區法院首次開庭審理,而法院於 2024 年 9 月 27 日做出對 LAION 有利於的判決。[3]

不適用 44a 條的「暫時性重製」

法院認為,LAION 對圖片的複製行為並非「暫時性重製」,原因如下:

並非「暫時性或附帶性」: 法院指出,暫時性重製的持續時間僅限於技術過程正常運作所需的時間,且應在達成目的後自動刪除。雖然 LAION 在分析完成後會自動刪除圖片,但下載圖片是 LAION 出於分析目的而進行的有意識且積極控制的獲取過程,而非僅僅是分析過程的附帶結果

未構成「技術過程的必要組成部分」: 法院認為,LAION 的下載行為是為了將圖片用於其資料集中,並非網路傳輸的必要步驟

因此,LAION 的行為無法受到第 44a 條的豁免。

是否適用 44b 條的「文字和資料探勘」?

地院對此條款的適用性表達了意見,但並未作出最終決定。是否適用「文字和資料探勘」的關鍵點在於,圖庫 bigstock.com 是否有以「機器可讀」的形式保留自己的權利?

判決中指出,bigstock.com 是以一般的文字在網頁上顯示聲明:「您不得對:(...) 為任何目的使用自動程式、小程式、機器人或類似工具訪問 XXX.com 網站或網站上的任何內容,包括(僅舉例說明)下載內容、編製索引、或快取網站上的任何內容」。對此,法院傾向認為,就算圖庫網站 bigstock.com 沒有使用 robot.txt,而是用此「自然語言」進行聲明,只要當時的技術水準能夠讓機器理解其內容,就可以被視為「機器可讀」。

有趣的是,在判決前的聽證會中,雙方就是在第 44b 條唇槍舌戰,但法院最後的判決,卻是仰賴接下來的第 60d 條,而一般資料探勘的判斷標準仍然懸而未決。[4]

適用 60d 條的「為科學研究目的之文字和資料探勘」

法院裁定,LAION 下載 原告Kneschke 照片的行為適用60d條款的豁免,因此並未侵權。

LAION 屬於研究機構:法院認為 LAION 是專注於人工智慧研究的非營利組織,其建立資料集的目的是為了促進科學研究,符合 60d 條款中「研究機構」的要求。

LAION-5B 本身不具商業性:法院指出,LAION 將其資料集免費提供給公眾使用,沒有從中獲取商業利益,因此符合 60d 條款中「非商業性」的要求。

LAION-5B 有商業用途,但仍然適用 60d 條:法院認為,LAION 無法預測資料集會被如何使用,所以即使有商業公司使用 LAION 的資料集,也不會影響 LAION 本身的非商業性質。

判決能成為製作資料集的避風港,但未必有利 AI 開發商

LAION 之所以能夠勝訴,要歸功於能讓法官相信,LAION 是一個非商業性的研究機構,並將自己的行為包裝在德國著作權法第 60d 條的例外條款之下:

LAION 本身沒有儲存圖片,研究人員必須利用 LAION 所提供的工具「img2dataset」來下載感興趣的子集以取得圖片資料。而 LAION-5B 資料集事實上是一個「表格」,只包含圖片的網址以及文字描述。

法院認為 LAION 的資料集是用於科學研究目的。

LAION 將資料集「免費公開」,符合「非商業性」的要求。

雖然原告指出LAION 與 Stability AI 等商業公司關係密切,而 Stability AI 就是使用 LAION-5B 資料集來訓練其商業 AI 模型 Stable Diffusion;除此之外,LAION 曾接受商業公司的資金支持,甚至 LAION 的部分成員就任職於這些商業公司,明顯存在利益關係。然而,法院認為重點是 LAION 自身的行為是否具有商業目的,並非資金來源,而也沒有證據指出資金被 LAION 用於開發自己的商業產品。

不過客觀上來說,似乎難以否認 Stability AI 與 LAION 有某種程度的依存關係(沒有 LAION-5B,就難以打造 Stable Diffusion),只是在訴訟中原告無法成功舉證 Stability AI 對 LAION 有實質的控制力。若原告選擇上訴,這應該仍會是攻防的關鍵點。[5]

雖然 LAION 可以稍微鬆一口氣。但反過來說,這個判決只有利於專門建立資料集的機構,而其他實際用 LAION-5B 資料集訓練 AI 模型的廠商,如Midjourney、Stability AI 等明顯更商業導向的公司,幾乎不可能獲得第 60d 條的豁免,只能冀望其他條款的適用。

「建立」與「使用」資料集是兩種不同的行為

判決書中, 法院刻意區分「建立資料集」和「訓練 AI 」這兩種行為,並指出 LAION 僅負責建立資料集,並未參與 AI 模型的訓練或使用,是否也是在暗示其他使用 LAION 資料集的廠商在法庭上會有不同的結果?另外,法院認為LAION 的複製行為不是「暫時性重製」,且網站只要以一般文字標註就可以符合「機器可讀」的選擇退出,對 AI 開發商是明顯不利的。

話雖如此,那 OpenAI、Meta 等生成式 AI 的開發商,在德國就會陷入極大風險嗎?倒也未必。在判決理由中,德國法院多次提及歐盟的《DSM Directive》以及《AI Act》,而在《AI Act》中歐盟似乎已經表態,訓練 AI 模型應該也屬於《DSM Directive》所規定的一種資料探勘,因此若商業公司尊重著作權人的選擇退出聲明,應可降低部分風險。

本案較為可惜的是,由於 LAION 的行為已經被判定屬於第 60d 條的豁免,地院就沒有對商業公司能夠主張的 44b 條豁免做判斷。

整體來說,本次判決僅涉及 LAION 行為的具體事實,不宜擴張解釋。未來其他商業公司若進行資料探勘而被提起訴訟時,很可能會有不同的判決結果。 因此,AI 開發商仍需謹慎評估其資料收集方式,並積極尋求與著作權人合作,才能在合法的基礎上發展 AI 技術。

 

備註:

 

責任編輯:李淑蓮

【本文僅反映專家作者意見,不代表本報立場。】

 
作者: 袁如陵 (Juling Yuan)
經歷: 雃博股份有限公司 法務智權部經理
英國 Visiongain 產業分析師
鴻海精密 專利工程師
學歷: 國立台灣大學 植物病理暨微生物學碩士
英國倫敦大學皇后瑪麗學院 智慧財產權管理碩士
專長: 專利佈局、企業品牌、商業情資調查、企業內訓
資格: 台灣專利師
無形資產評價管理師初級
英國專利/商標代理人初試通過
中國專利代理人考試通過

 

 

Facebook 在北美智權報粉絲團上追踪我們       

 





感謝您閱讀「北美智權報」,歡迎分享智權報連結。如果您對北美智權電子報內容有任何建議或欲獲得授權,請洽:Editorial@naipo.com
本電子報所登載之文章皆受著作權保護,未經本公司授權, 請勿轉載!
© 北美智權股份有限公司 & 北美聯合專利商標事務所 版權所有     234新北市永和區福和路389號五樓 TEL:+886-2-8923-7350