免费的在线机器翻译可说是公众接触各种文化和知识的一大利器,尤其在神经机器翻译技术(Neural Machine Translation, NMT)面世后,机器翻译能够正确传达的语意比例确实有了长足进步。不过,当个人或组织频繁使用这些机器翻译工具之际,是否想过上传文本内容可能潜藏着危机?免费产品从来不是真正免费,其中的隐私权保护与数据安全疑虑值得深思。
图片来源 : shutterstock、达志影像
使用机器翻译而导致机密文件和个人信息泄漏,绝非危言耸听,2017年便曾发生透过Google搜寻可取得挪威国家石油(Statoil,现改称Equinor)文件内容的大量数据外泄事件[1],原因正是有人曾在Translator.com输入该公司文件。尽管付费的机器翻译服务相对安全,但鉴于免费的在线机器翻译容易取用(毕竟大多数使用者并非翻译从业人员),所引发的隐私权及数据安全风险仍是居高不下,使用者的确有必要了解因使用行为而同意哪些约定。
免费但所费不赀:以Google和Microsoft条款规范为例
Google在服务条款开宗明义提到[2],若干服务允许使用者上传、提交、储存、发送、接收或分享其内容;使用者并无义务向Google服务提供任何内容,且得自由选择所提供的内容;若使用者选择上传或分享内容,应确认其拥有必要权限且该内容为合法。
而在使用Google服务的过程中,Google也就使用者内容取得全球性且免费的用户许可证,其范围包括:
- 托管、重制、散布、交流及使用该内容,例如在Google系统储存该内容并得随时存取。
- 出版、公开表演或公开展示使用者已向第三方揭露的内容。
- 修改或依据使用者内容创作衍生著作,例如重新格式化或翻译。
- 转授权——
- 其他使用者,以发挥Google服务效用,例如与使用者选定之人分享照片。
- 依据服务条款与Google签订协议的承包商,但以下列目的为限:
- 营运及改善服务,亦即允许Google服务发挥效用并创造新的特性与功能,例如在发送、接收及储存使用者内容时,利用自动化系统和算法加以分析,藉此识别垃圾邮件、恶意软件与非法内容。
- 利用使用者的公开内容来推广服务。
- 依据服务条款为Google开发新技术和服务。
尽管Google表示前述授权不影响隐私权,牵涉的仅是智慧财产方面,纵然如此,该授权范围仍是极为广泛。简单来说,免费在线机器翻译的商业模式就是[3]:提供免费服务以换取用户提交的数据,进而(或委托第三方)直接或间接用于改善服务、营销或广告;所提交的数据,其实就是使用服务的对价,合算与否便交由使用者自行斟酌。
反观属于付费服务的Google Translate API,即承诺不会将数据转作他用、与第三方分享、或用以训练或改善机器翻译,并且声明符合欧盟一般数据保护规则(GDPR)[4]。
Microsoft的免费服务也有类似条款规范,不过,在「机密」一节已明确指出[5],基于改善服务需要,Microsoft Translator应用程序、Translator for Bing、Microsoft Edge和Web Translator都会搜集用户提交的语音片段与文本翻译。而Microsoft隐私声明也清楚表示[6],Microsoft Translator会处理用户提交的文本、图像和语音数据,藉此提供Microsoft Translator服务、个人化体验以及改善产品与服务;此外,Microsoft已采取去识别化的业务及技术措施,例如在随机抽取文本和音频样本时,删除样本中所侦得可能包含个人资料的标识符(identifier)和若干文本,例如电子邮件地址、数列等。
隐私权疑虑:服务条款说了算?
或许有人认为基于契约自由,使用免费服务理当接受供货商所定之条款约束,若不同意,便不应该使用该服务。如此说法不完全正确,因为至少供货商负有遵循法规的义务,隐私权保护即是其中之一[7],这点与所使用服务是否收费无关。以GDPR规范为例[8],免费机器翻译在数据再处理上(指提供翻译服务以外之处理)可能产生若干问题[9],例如:
1. 商业性的再处理:用于营销与广告
免费机器翻译供货商若想将用户提交的数据直接或间接用于营销与广告,理论上应告知用户该使用的详细信息,并且征得其明示同意,因为该使用既不符合GDPR第5(1)(b)条所称「达成公共利益之目的、科学或历史研究目的或统计目的所为之进阶处理」,亦不属于第6(1)(f)条「处理系控管者或第三者为追求正当利益之目的所必须者」,并无默示同意的适用空间。然而,即使已充分知会使用者,基于商业目的之再处理能否通过第5(1)(a)条公正性原则的检验,仍有疑问。
2. 非商业性的再处理:改善翻译服务
至于能否利用用户提交的数据改善翻译服务,可从两方面来检视:
第5(1)(b)条之目的限制
根据GDPR第5(1)(b)条后段规定,「依照第89(1)条规定,为达成公共利益之目的、科学或历史研究目的或统计目的所为之进阶处理,不应视为不符合原始目的」,就文义观察,翻译模型改善似有可能落入基于统计及研究目的之处理,但在解释上[10],是否符合原始目的之主要评估因素为「数据搜集的背景以及数据主体对于进阶使用的合理预期」,而实际上,使用者大多以为输入的文本在翻译完成后会被删除,再处理显然并非其合理预期。
再者,第89(1)条要求所定之适当保护措施,「应确保已备妥技术上及组织上之措施,特别是用以确保资料最少搜集原则之落实⋯⋯措施得包括假名化」[11],即使认定属于统计及研究目的之处理,也必须符合「数据最少搜集原则」甚至「去识别化」处理,前述Microsoft隐私声明即提及此点(Google也是[12]),不过问题是,使用者「信任」声明但能否「验证」[13]?
第6(1)(f)条之正当利益
根据第6(1)(f)条规定,改善翻译服务此等再处理可归类为「控管者或第三者为追求正当利益之目的所必须者」,而且也符合使用者的真实且迫切(real and present)之利益,然而,但书提到「该数据保护之数据主体之利益或基本权与自由优先于该等利益,特别是该资料主体为儿童时,不适用之」,极其明显,使用者几乎不可能就再处理向供货商主张GDPR赋予的权利,包括删除权、被遗忘权等,自然无法符合该条要求。
而实测也能发现,Google账户的汇出(take out)或删除选项并不包含透过Google Translate提交的数据,不过,无法汇出或删除不代表供货商并未搜集此类资料。
3. 资料主体同意之取得
根据第4(11)条规定,「资料主体之『同意』系指数据主体基于其意思,透过声明或明确肯定之行动,所为自主性、具体、知情及明确之表示同意处理与其有关之个人资料」,当所输入文本仅牵涉到使用者个人资料时,解释上较无问题,因为使用翻译服务或可认为是透过行动表示同意。然而,若牵涉到第三方之个人资料,例如收到不熟悉外文撰写的电子信件,除非明确征得对方同意,否则难以解释第三方「默示同意」使用者利用机器翻译了解信件内容。更何况,就第6(1)(f)条规定之必要性而言,机器翻译并非控管者(此时为输入文本的使用者)追求正当利益所必须的处理方式,反而应该交由人工翻译才是。
结语
使用免费机器翻译确实会为隐私权及数据安全带来不小风险,使用者也难以确认供货商取得数据后之处置与相关措施,为减少因此可能发生的危害,本文提供以下两点建议:
- 在委托翻译之前,务必确保已遮蔽可识别的个人信息和机密内容,例如合约当事人、价金、目标等(有时甚至包括经手业务的事务所)。如此作法不单是针对机器翻译的外泄可能,其实,数据在经手或转包过程中所接触的人数往往超乎想象,实务上「信息全都露」的状况也屡见不鲜——尽管接触人员受保密协议拘束,但事先预防绝对胜过事后求偿,更何况是否提供此类信息,通常并不影响译者作业。
- 同样地,若真有需要使用机器翻译,也必须尽可能做到「去识别化」。此外,企业必须认识到机器翻译潜藏的风险并非仅涉及译者,员工也无法排除在外(例如为了解跨国事务),务必提高员工在这方面的安全意识。
备注:
-
Florian Faes, Translate.com Exposes Highly Sensitive Information in Massive Privacy Breach, https://slator.com/translate-com-exposes-highly-sensitive-information-massive-privacy-breach/
-
Google Terms of Service (2020/03/31), https://policies.google.com/terms?hl=en-us
-
Pawel Kamocki, Jim O'Regan, Privacy Issues in Online Machine Translation Services – European Perspective (2016), p4460.
-
Google Cloud Data usage FAQ, https://cloud.google.com/translate/data-usage
-
Microsoft Translator, Confidentiality: No Trace, https://www.microsoft.com/en-us/translator/business/notrace/
-
Microsoft Privacy Statement (2021/10), https://privacy.microsoft.com/en-us/privacystatement
-
无论GDPR或台湾个人资料保护法,所保护者均是「自然人」的数据,若为组织文件,涉及的则是数据安全或营业秘密。
-
本文引用的GDPR条文中译本来源:https://www.ndc.gov.tw/Content_List.aspx?n=F98A8C27A0F54C30
-
Pawel Kamocki, Jim O'Regan, Privacy Issues in Online Machine Translation Services – European Perspective (2016), p4460-61.
请注意的是,该文出刊正值GDPR推出之际,所引用的是欧盟1995年个人资料保护指令,本文已转换成GDPR相关规定条号,并新增部分观点。
-
Article 29 Working Party Opinion on purpose limitation - WP 203 (2013/04/02).
-
台湾个人资料保护法第19条第1项第4款有类似规定,「非公务机关对个人资料之搜集或处理,除第6条第1项所规定数据外,应有特定目的,并符合下列情形之一者:
四、学术研究机构基于公共利益为统计或学术研究而有必要,且资料经过提供者处理后或经搜集者依其揭露方式无从识别特定之当事人。」
-
Google Privacy Policy (2021/07/01), https://policies.google.com/privacy?hl=en-us
-
Mats Dannewitz Linder, How (un)safe is machine translation? (2018/04/25), http://tradosstudiomanual.com/?p=1448
好消息~北美智权报有微信公众号了!
《北美智权报》内容涵盖世界各国的知识产权新闻、重要的侵权诉讼案例分析、法规解析,以及产业与技术新知等等。
立即关注北美智权微信公众号→ NAIP_IPServices
~欢迎读者分享与转发~ |
|
|
【本文只反映专家作者意见,不代表本报立场。】
作者: |
许慈真 |
学历: |
(台湾)辅仁大学外语学院财经法律翻译学程
(台湾)辅仁大学法律学系博士
(台湾)辅仁大学财经法律学系硕士
(台湾)辅仁大学法律学系学士 |
专长: |
智慧财产权、法律翻译 |
|
|
|