免費的線上機器翻譯可說是公眾接觸各種文化和知識的一大利器,尤其在神經機器翻譯技術(Neural Machine Translation, NMT)面世後,機器翻譯能夠正確傳達的語意比例確實有了長足進步。不過,當個人或組織頻繁使用這些機器翻譯工具之際,是否想過上傳文本內容可能潛藏著危機?免費產品從來不是真正免費,其中的隱私權保護與資料安全疑慮值得深思。
圖片來源 : shutterstock、達志影像
使用機器翻譯而導致機密文件和個人資訊洩漏,絕非危言聳聽,2017年便曾發生透過Google搜尋可取得挪威國家石油(Statoil,現改稱Equinor)文件內容的大量資料外洩事件[1] ,原因正是有人曾在Translator.com輸入該公司文件。儘管付費的機器翻譯服務相對安全,但鑑於免費的線上機器翻譯容易取用(畢竟大多數使用者並非翻譯從業人員),所引發的隱私權及資料安全風險仍是居高不下,使用者的確有必要了解因使用行為而同意哪些約定。
免費但所費不貲:以Google和Microsoft條款規範為例
Google在服務條款開宗明義提到[2] ,若干服務允許使用者上傳、提交、儲存、發送、接收或分享其內容;使用者並無義務向Google服務提供任何內容,且得自由選擇所提供的內容;若使用者選擇上傳或分享內容,應確認其擁有必要權限且該內容為合法 。
而在使用Google服務的過程中,Google也就使用者內容取得全球性且免費的使用授權,其範圍包括:
託管、重製、散布、交流及使用 該內容,例如在Google系統儲存該內容並得隨時存取。
出版、公開表演或公開展示 使用者已向第三方揭露的內容。
修改 或依據使用者內容創作衍生著作 ,例如重新格式化或翻譯。
轉授權 ——
其他使用者 ,以發揮Google服務效用,例如與使用者選定之人分享照片。
依據服務條款與Google簽訂協議的承包商 ,但以下列目的為限:
營運及改善服務 ,亦即允許Google服務發揮效用並創造新的特性與功能,例如在發送、接收及儲存使用者內容時,利用自動化系統和演算法加以分析,藉此識別垃圾郵件、惡意軟體與非法內容。
利用使用者的公開內容來推廣服務 。
依據服務條款為Google開發新技術和服務 。
儘管Google表示前述授權不影響隱私權,牽涉的僅是智慧財產方面,縱然如此,該授權範圍仍是極為廣泛。簡單來說,免費線上機器翻譯的商業模式就是[3] :提供免費服務以換取使用者提交的資料,進而(或委託第三方)直接或間接用於改善服務、行銷或廣告;所提交的資料,其實就是使用服務的對價 ,合算與否便交由使用者自行斟酌。
反觀屬於付費服務的Google Translate API,即承諾不會將資料轉作他用、與第三方分享、或用以訓練或改善機器翻譯,並且聲明符合歐盟一般資料保護規則(GDPR)[4] 。
Microsoft的免費服務也有類似條款規範,不過,在「機密」一節已明確指出[5] ,基於改善服務需要,Microsoft Translator應用程式、Translator for Bing、Microsoft Edge和Web Translator都會蒐集使用者提交的語音片段與文本翻譯。而Microsoft隱私權聲明也清楚表示[6] ,Microsoft Translator會處理使用者提交的文本、圖像和語音資料,藉此提供Microsoft Translator服務、個人化體驗以及改善產品與服務;此外,Microsoft已採取去識別化 的業務及技術措施,例如在隨機抽取文本和音訊樣本時,刪除樣本中所偵得可能包含個人資料的識別碼(identifier)和若干文本,例如電子郵件地址、數列等。
隱私權疑慮:服務條款說了算?
或許有人認為基於契約自由,使用免費服務理當接受供應商所定之條款約束,若不同意,便不應該使用該服務。如此說法不完全正確,因為至少供應商負有遵循法規的義務,隱私權保護即是其中之一[7] ,這點與所使用服務是否收費無關。以GDPR規範為例[8] ,免費機器翻譯在資料再處理上(指提供翻譯服務以外之處理)可能產生若干問題[9] ,例如:
1. 商業性的再處理:用於行銷與廣告
免費機器翻譯供應商若想將使用者提交的資料直接或間接用於行銷與廣告,理論上應告知使用者該使用的詳細資訊,並且徵得其明示同意,因為該使用既不符合GDPR第5(1)(b)條所稱「達成公共利益之目的、科學或歷史研究目的或統計目的所為之進階處理」,亦不屬於第6(1)(f)條「處理係控管者或第三者為追求正當利益之目的所必須者」,並無默示同意的適用空間。然而,即使已充分知會使用者,基於商業目的之再處理能否通過第5(1)(a)條公正性原則的檢驗,仍有疑問。
2. 非商業性的再處理:改善翻譯服務
至於能否利用使用者提交的資料改善翻譯服務,可從兩方面來檢視:
第5(1)(b) 條之目的限制
根據GDPR第5(1)(b)條後段規定,「依照第89(1)條規定,為達成公共利益之目的、科學或歷史研究目的或統計目的所為之進階處理,不應視為不符合原始目的」,就文義觀察,翻譯模型改善似有可能落入基於統計及研究目的之處理,但在解釋上[10] ,是否符合原始目的之主要評估因素為「資料蒐集的背景以及資料主體對於進階使用的合理預期 」,而實際上,使用者大多以為輸入的文本在翻譯完成後會被刪除,再處理顯然並非其合理預期。
再者,第89(1)條要求所定之適當保護措施,「應確保已備妥技術上及組織上之措施,特別是用以確保資料最少蒐集原則之落實⋯⋯措施得包括假名化」[11] ,即使認定屬於統計及研究目的之處理,也必須符合「資料最少蒐集原則」甚至「去識別化」處理,前述Microsoft隱私權聲明即提及此點(Google也是[12] ),不過問題是,使用者「信任」聲明但能否「驗證」[13] ?
第6(1)(f) 條之正當利益
根據第6(1)(f)條規定,改善翻譯服務此等再處理可歸類為「控管者或第三者為追求正當利益之目的所必須者」,而且也符合使用者的真實且迫切(real and present)之利益,然而,但書提到「該資料保護之資料主體之利益或基本權與自由優先於該等利益,特別是該資料主體為兒童時,不適用之」,極其明顯,使用者幾乎不可能就再處理向供應商主張GDPR賦予的權利,包括刪除權、被遺忘權等,自然無法符合該條要求。
而實測也能發現,Google帳戶的匯出(take out)或刪除選項並不包含透過Google Translate提交的資料,不過,無法匯出或刪除不代表供應商並未蒐集此類資料。
3. 資料主體同意之取得
根據第4(11)條規定,「資料主體之『同意』係指資料主體基於其意思,透過聲明或明確肯定之行動,所為自主性、具體、知情及明確之表示同意處理與其有關之個人資料」,當所輸入文本僅牽涉到使用者個人資料時,解釋上較無問題,因為使用翻譯服務或可認為是透過行動表示同意。然而,若牽涉到第三方之個人資料,例如收到不熟悉外文撰寫的電子信件,除非明確徵得對方同意,否則難以解釋第三方「默示同意」使用者利用機器翻譯了解信件內容。更何況,就第6(1)(f)條規定之必要性而言,機器翻譯並非控管者(此時為輸入文本的使用者)追求正當利益所必須的處理方式,反而應該交由人工翻譯才是。
結語
使用免費機器翻譯確實會為隱私權及資料安全帶來不小風險,使用者也難以確認供應商取得資料後之處置與相關措施,為減少因此可能發生的危害,本文提供以下兩點建議:
在委託翻譯之前,務必確保已遮蔽可識別的個人資訊和機密內容,例如合約當事人、價金、標的等(有時甚至包括經手業務的事務所)。如此作法不單是針對機器翻譯的外洩可能,其實,資料在經手或轉包過程中所接觸的人數往往超乎想像,實務上「資訊全都露」的狀況也屢見不鮮——儘管接觸人員受保密協議拘束,但事先預防絕對勝過事後求償,更何況是否提供此類資訊,通常並不影響譯者作業。
同樣地,若真有需要使用機器翻譯,也必須盡可能做到「去識別化」。此外,企業必須認識到機器翻譯潛藏的風險並非僅涉及譯者,員工也無法排除在外(例如為了解跨國事務),務必提高員工在這方面的安全意識。
備註:
Florian Faes, Translate.com Exposes Highly Sensitive Information in Massive Privacy Breach, https://slator.com/translate-com-exposes-highly-sensitive-information-massive-privacy-breach/
Google Terms of Service (2020/03/31), https://policies.google.com/terms?hl=en-us
Pawel Kamocki, Jim O'Regan, Privacy Issues in Online Machine Translation Services – European Perspective (2016), p4460.
Google Cloud Data usage FAQ, https://cloud.google.com/translate/data-usage
Microsoft Translator, Confidentiality: No Trace, https://www.microsoft.com/en-us/translator/business/notrace/
Microsoft Privacy Statement (2021/10), https://privacy.microsoft.com/en-us/privacystatement
無論GDPR或我國個人資料保護法,所保護者均是「自然人」的資料,若為組織文件,涉及的則是資料安全或營業秘密。
本文引用的GDPR條文中譯本為金融聯合徵信中心授權國家發展委員會使用的版本, https://www.ndc.gov.tw/Content_List.aspx?n=F98A8C27A0F54C30
Pawel Kamocki, Jim O'Regan, Privacy Issues in Online Machine Translation Services – European Perspective (2016), p4460-61.
請注意的是,該文出刊正值GDPR推出之際,所引用的是歐盟1995年個人資料保護指令,本文已轉換成GDPR相關規定條號,並新增部分觀點。
Article 29 Working Party Opinion on purpose limitation - WP 203 (2013/04/02).
我國個人資料保護法第19條第1項第4款有類似規定,「非公務機關對個人資料之蒐集或處理,除第6條第1項所規定資料外,應有特定目的,並符合下列情形之一者:
四、學術研究機構基於公共利益為統計或學術研究而有必要,且資料經過提供者處理後或經蒐集者依其揭露方式無從識別特定之當事人。」
Google Privacy Policy (2021/07/01), https://policies.google.com/privacy?hl=en-us
Mats Dannewitz Linder, How (un)safe is machine translation? (2018/04/25), http://tradosstudiomanual.com/?p=1448
【本文僅反映專家作者意見,不代表本報立場。】
作者:
許慈真
學歷:
輔仁大學外語學院財經法律翻譯學程
輔仁大學法律學系博士
輔仁大學財經法律學系碩士
輔仁大學法律學系學士
專長:
智慧財產權、法律翻譯
Facebook
在北美智權報粉絲團上追踪我們
Please enable JavaScript to view the comments.