数据革命,使得各行各业透过大数据分析,得以开发新科技、新设备和并提供新服务。根据欧盟的研究,数据(Data)已成为人类社会的重要资产,其重要性已与传统人力和财政资源不相上下,而依照Wikibon公布资料,2014年全球大数据商品与服务市场约有183亿,且持续在增加中,由于大数据市场活络,也产生数据相关知识产权、信息安全、个人资料保护等相关法律相关问题,备受国际社会关注。因此,本文将针对大数据分析有关版权相关问题进行探讨。
大数据商品与服务市场成长引发各种相关法律问题
数据搜集和分析长期被用来评估各项政策与商业计划的绩效。不仅如此,资料搜集与分析,也被大量运用在公共卫生、人口、医学、天文等领域之统计与分析,以探讨科学与社会现象,并提供问题解决方式。然而,在数据时代,我们强调的大数据(Big Data)分析已不同于过去,由于计算机与网络科技进步,数据处理能力加强,云端计算与储存的成本下降,以及设备传感器科技大幅成长,数据产生、搜集、分析、存储、与应用已有不同之面貌,产生不同应用方式,对于社会与企业造成不同程度之影响。
依照Wikibon公布数据,全球大数据市场将以14.4%年复合成长率增长,到2026年预估全球大调制解调器市场将增长为928亿美元[1]。自2014年起至2016年,美国白宫连续三年以大数据主题发表有关对隐私权、平等权、价格差异之研究报告[2]。2015年美国学术研究与图书馆协会,也针对资料探勘与合理使用提出报告[3]。2015年12月欧洲委员会,发布版权改革提案,增加数据探勘为合理使用之类型[4]。2016年1月6日,美国联邦贸易委员会(FTC)发布「大数据:了解议题:包容性或排斥性工具」的报告,该报告检讨公司使用大数据涉及三个与FTC主管之法规「公平信用报告法(FCRA)」、「平等机会法」、「联邦贸易委员会法」[5]。这些政策与法规相关之白皮书与评估报告,反映国际社会对于迎接大数据科技时代来临,所衍生社会问题与法律适用之关切。
何谓大数据? 3Vs特征
究竟何谓大数据,其实目前尚未有统一特定的解释,不同领域专业对于大数据有不同定义[6]。欧洲委员会将「大数据」定义为不同来源快速产生的大量数据[7];此种数据可以由人类所创建或由机器生成,例如搜集气候数据,卫星图像,数字化图片和影音,购买事务历史记录,传感器的GPS信号,其所包含领域相关广泛,包括从医疗保健,运输和能源领域等数据之搜集。
2014年美国白宫有关大数据的报告,则指出虽然目前对于大数据尚无统一定义,但是,大多数定义反映目前的大数据在获取(capture)、累积(aggregate)、处理(processing)方面,相较过去数据处理在数量、数度、以及多样性方面,有大幅提高之现象。换言之,大数据相对于过去数据而言,「数据」取得更快速、涵盖范围更为广泛,且提供新类型的观察和过去未能提供的计算数据。更精确地说,之所以称之为「大数据」,系因为数据产生来自仪器,传感器,网络交易,电子邮件,影音档案,网络点击流量以及所有目前或未来可能提供所有数字化数据。故此,大数据具有大量、多样性、复杂性、纵向或分布式等数据特性。2014年美国白宫的研究报告认为与其执着于大数据之定义,应该由大数据与传统数据的差异去定义大数据,因而提出数量(Volume)、多样性(Variety)与快速性(Velocity)等3Vs特征定位大数据。所谓数量,系指大数据处理数据量远远大于传统数据;快速性,是指在生成速度上较传统数据快速;多样性则指大数据的类型多样化,且可由各种来源取得,涵盖各种数字格式。
数据的法律地位?
讨论大数据法律关系的前提,必须先对信息与数据加以定位。信息(information)是指通知、被表达(expressed)或传达(conveyed)或透过一般观察产生(common observation)的信息(message)之内容(content)。数据(data)是数字化信息(digital information)。依照国际标准化组织(the International Organization of Standardization, ISO)第2382号标准[8],将标准定义为格式化的信息(information)以适于沟通(communication)、诠释(interpretation)与处理(processing)。所谓信息处理包括人为或自动化机械处理。信息和数据,这二个名词,虽然国际标准有不同的内涵,但是在一般性文章这两个词语经常性混用,都是一种表达与沟通内容,不同于不动产与动产有形资产,权利范围有一定范围,无法定义其界限。
信息与数据与有形资产财产权内容亦不兼容,因此包括所有权权能、占有观念之适用有其困难。况且,数字信息产生系因对于IT投资,而不像知识产权为人类心智活动,因此与知识产权理论亦有些为区别。那么信息或数据本身是否是一种财产权?是否或可以用知识产权保护?值得检讨。各国对于数据或信息保护,有不同做法。英国在1979年刑法,立法说明提到信息并非财产,因此对于秘密信息「无体财产」提告,因为信息不是被偷窃的对象[9]。在美国,单纯事实或新闻的信息非知识产权保护目标[10],但信息本身如果符合版权保护要件、或营业秘密保护要件,则可以版权或营业秘密保护。国际知识产权公约,对于公开数据保护并未有相关规定,虽然1996年3月11日欧洲议会及理事会通过编号96/9/EC「欧联数据库法律保护指令」,要求所有欧联会员国于1998年1月1日前必须于内国法令内落实数据库指令之条款,然而并非数据本身提供保护,且仅适用于欧盟会员国。
由于既有的有体财产权架构,与现行信息保护内含并不兼容,一般探讨数据或信息保护与使用人之相关之权利与义务,仍然透过知识产权架构、许可协议条款与行政法管制3个面向进行检讨。2014年英国有学者将企业资料法律管控架构分为六个层面[11],为分析数据提供法律管理法规,对于数据保护概念形成,具有实义,此六层关系,分别为:第六层:信息管理与信息安全管理架构:设定政策、策略,适用的标准包括: PCI DSS, ISO 27001/2, SSAE 16, ISAE 3402。第五层:管制法规,包括个资法的遵循、竞争法对于数据相关规定遵循。第四层:资料有关之合约。第三层:知识产权法,包括数据相关之专利、商标、版权、营业秘密。第二层:数据架构、数据结构、设计架构等。第一层:基础设施平台。
虽然与大数据相关的知识产权法,包括专利与商标,与处理数据的流程与计算机软件可以透过专利保护,但是并非保护资料本身。又有关大数据相关的商品与服务可以商标保护,但也非数据本身保护。因此,有关数据本身的保护仍以版权为主。
版权与数据保护
以数据为例,传统版权所保护语文著作目标,可以涵盖文字研究、股票市场分析、统计分析等相关的出版物,与计算机软件与信息结构有关的技术和用户文件。与数据有关计算机程序和计算机程序设计亦可以语文作品保护。版权保护目标,包括软件、数据库、语文著作、音乐,电影,视听和广播,均可为电子数据格式。但版权保护信息的格式(forms)或表达(expression),而不是信息本身内含。在采版权自动保护主义的国家,当著作完成时,符合著作原创性的保护要件,由著作人取得版权。因此,如果进行大数据搜集与分析的过程或结果,涉及这些数据内容表现则与版权有关。
另外,数据库保护与数据、或数据处理软件之保护,均与数据或数据有关,但保护程度不同。例如:数据处理软件是版权保护目标,但版权保护数据的表现形式而非数据本身。而数据库在欧盟,倘符合「欧联数据库法律保护指令」即受保护。在2012年欧洲法院(ECJ)审理英国高等法院(UK high Court)Football Dataco Ltd v. Brittens Pools Ltd/Yahoo UK Ltd乙案[12],ECJ认为「欧联数据库法律保护指令」立法背后的政策目标是为刺激和保护「数据储存和处理系统」,并非保护数据库中所收集的材料或建立的材料。因此,因此在数据库中的数据,仅有数据的选择或安排才受到数据保护。
大数据、数据探勘与合理使用
大数据(Big Data)指大量数聚集(data set),资料探勘(data mining)则是在探讨用以解析大数据的方法,也就是透过大数据集查寻找与数据相关信息的活动[13]。因此,数据探勘与大数据虽然指两件事,但是彼此相关。研究人员透过大规模的计算分析相关研究资料(big data),可以分析研究结果的模式,此称为数据探勘(Text Data Mining),资料探勘的技术为研究人员节省大量资料时间。所以,大数据分析需要透过数据探勘的分析过程,才能呈现大数据的价值与意义,而加以应用。
目前大数据的分析,经常利用资料探勘进行大量的研究或数据之分析,分析过程中藉由计算机程序爬取(crawl)数百万个文章或其他数字形式的内容,而由文本或数据的信息产生衍生性数据。数据探勘使研究人员可由现有知识中发现新的知识,并可以大量分析信息,识别数据模式和趋势,并理解个别档案之间的联系。资料探勘可以达到过去单靠人力研究所无法达成分析,并取得过去无法取得的新知识。在多数数据探勘的案例中,如果被分析的著作其使用方式并未受到限制,只要使用的著作在合理范围,分析结果具有其他的功能,且与原著作物的商业市场并不相同,对于无利用方式限制的文章执行数据探勘是一种合理使用。
数据探勘过程依照数据分析的方式与所呈现的结果,必须视个案利用情况,因此未必构成重制。例如,在数据探勘的过程中,如果所使用的分析数据仅是暂时性重制,且所产生的分析结果亦仅有文献中的内容的事实而不涉及数据的表现,则数据探勘过程并无版权问题。因为,有关重制权的侵害,必须产生「超过短暂持续时间的期间」(period of more than a transitory duration.)之副本,如果仅是持续很短时间的临时副本(temporal copy)[14],不属于版权法重制的范围。
然而,数据探勘过程中,如果利用方式会保留文章的永久性副本以作为验证其分析结果之参考数据,此时因为涉及永久性副本之重制,将可能涉及版权重制权之侵害。在许多情况,数据探勘的输出也可能涉及版权侵害,例如分析结果呈现原始图像,此时涉及版权重制。以上这二种情况,需要透过授权,或主张合理使用,以排除版权侵害之法律争议。美国联邦法院近年来陆续审理有关大数据分析与数据探勘案件,有助于判断数据探勘是否符合合理使用之要件,例如,2014年White v. West案[15],涉及引用文本数据进行数据分析,法院认为构成合理使用。
在White v. West乙案,原告Edward White and Kenneth Elan二位律师,控告Westlaw 与LexisNexis两间法律数据库的出版商,在Pacer数据库中下载White律师所递交法院的档案,并于数据库中重制其法律著作,使得使用者得以使用。但Westlaw and LexisNexis针对White律师的版权侵权控告,主张合理使用,被告认为虽藉有重制法律文件,但已加上Metadata(元数据)以描述所储存的法律档案,[16]这种利用行为同时创造了一个法律研究的互动工具,让用户可以透过Metadata数据,可与法律数据库其他数据互动,搜寻其他相关档案,这是一种转换性合理使用。法院适用美国版权107条合理使用分析,并强调Westlaw与LexisNexis重制White的数据,但其增加其他元数据以创建法律研究互动工具,已经构成转换性使用之合理使用。
结论
对于版权人提供版权保护其作品,其目的在促进科学进步、文化创新,以及著作之散布。但是,创新研究与知识散布,必须藉由利用既有文学艺术科学作品方能达成,这些利用行为包括对于既有受保护著作之重制、改作、公开播送、散步等各种著作利用。因此,按照社会契约理论,国家提供版权之合理化原因,系社会藉由给予创作人有限期间独占权,以鼓励他们进行科学和文化创作;同时,以交换所有的受保护之作品,于版权期间消灭后成为公共财产的一部分;并在有限保护期间内,社会同时会给予其他创作人或使用人在某些特别情况下,得不经许可、且不需支付任何费用就可使用受版权保护的作品的机会,也就是所谓合理使用权利[17]。
社会契约说兼顾创作人权益以及使用人权利,在合理使用的架构下,使用我们一方面照顾版权的利益,确保版权人无法垄断他人针对其作品的转化性使用,使重要的新发现不因版权存在而产生障碍并具有使与公众文化逐渐丰富化功能。
90年代初至今,美国法院审理有关版权合理使用的案件中可以看出,合理使用判断,不一定非要以受版权保护作品进行了修改或重新设计,才会认为该次使用是具有转化性的。实际上,为了新的目的、透过重新设置作品用途和作品使用情景、而有新的展现给读者,都可以是被认为符合「转化性」要求。
在大数据时代,许多数据分析必须透过计算机复制原有文本或数据,呈现上也有可能利用受保护著作。大数据分析所使用软件、或程序,或必需因为数据格式兼容性关系都有可能涉及版权相关问题。虽然,由过去美国法院判决可知主张转换性使用主体,如果对受原版权保护作品被使用的方式和原因,可以解释得越清晰以及越连贯,该次使用越有可能被认为是转化性的目的。然而,具体有关大数据数据搜集、处理、数据探勘等数据分析技术均可能涉及版权保护议题,仍必须视个案情况,判断分析、储存、搜集方式,是否涉及重制、与存在合理使用的可能性。
注释
- SiliconANGLE Media, IncWikibon forecasts Big Data market to hit $92.2B by 2026 by MIKE, siliconangle.com/.../
- U.S. White House, Big Data: Seizing Opportunities, Preserving Values, May, 2014 www.whitehouse.gov/.../big_data_privacy_report_may_1_2014.pdf; BIG www.whitehouse.gov/.../2016_0504_data_discrimination.pdf;U.S. White House, Data And Differential Pricing, Feb, 2015 www.whitehouse.gov/.../Big_Data_Report_Nonembargo_v2.pdf
-
- European Commission, Communication From The Commission To The European Parliament, The Council, The European Economic And Social Committee And The Committee Of The Regions Towards A Modern, More European Copyright Framework, Brussels, 9.12.2015 COM(2015) 626 final,
ec.europa.eu/.../1-2015-626-EN-F1-1.PDF
- U.S. White House, Big Data: Seizing Opportunities, Preserving Values, May, 2014, page
-
- EC: Big data refers to large amounts of data produced very quickly by a high number of diverse sources. ec.europa.eu/.../big-data
- See ISO/IEC (the International Organization for Standardization/the international Electrotechnical Commission) standard ISO/IEC 2382:2015 (en), Information Technology – Vocabulary. See www.iso.org/...
- [1979] Crim LR 119, where it was held that confidential information in an exam question was not ‘intangible property’ within the meaning of Section 4(1) of the Theft Act 1968 and so could not be stolen
- International News Service v. Associated Press, 248 U.S. 215 (1918)
- Richard Kemp, Legal Aspects of Managing Big Data, September 2014, www.kempitlaw.com/...pdf
- 0 Floyd J gave judgment in the UK High Court on 23 April 2010 ([2010] EWHC 841 (ch) -
www.bailii.org/.../841.html).
The CoA gave judgement on appeal from Floyd J’s decision on 9 December 2012 ([2010] EWHC 1380 -
www.bailii.org/.../1380.html). The ECJ gave judgment on the questions
referred to it by the CoA on 1 March 2012 (Case C-604/10 -
curia.europa.eu/.../document.jsf). The CoA finally decided on 20 November 2012.
- www.techopedia.com/.../
- Cartoon Network LP, LLLP v. CSC Holdings, Inc., 536 F.3d 121 (2d Cir. 2008)
- (S.D.N.Y. 2014)
- zh.wikipedia.org
- CODE OF BEST PRACTICES IN FAIR USE FOR ACADEMIC AND RESEARCH LIBRARIES, www.arl.org/...pdf
【本文仅反映专家作者意见,不代表本报立场。】
作者: |
叶云卿 |
现任: |
北美智权(cn.naipo.com)外稿作家
台湾世新大学 知识产权研究所 副教授
台湾科技大学 专利所 兼任助理教授 |
学历: |
美国旧金山金门大学 法律博士(SJD)
美国华盛顿大学 法律硕士(LLM)
台湾政治大学 法律硕士
台湾大学环境工程所 工程硕士 |
经历: |
台湾科技大学专利所 助理教授
美国旧金山 Suzan See Law Office法务
美国硅谷 Vivian Lu Law Office法务
台湾建业律师联合事务所律师
台湾环宇律师事务所律师 |
产学合作计划: |
美国诉讼管理产学合作计划 |
代表著作: |
营业秘密刑事责任
中小企业知识产权管理制度建置
专利意见书在诉讼上之运用 |
證照: |
律师、台湾专利代理人、环境工程技师、仲裁人、ISO14000管理师 |
|
|
|