各国专利局都正在研究如何使用人工智能(AI)协助工作,更有许多研究机构与企业,投入使用AI来撰写专利的可能。在这片风潮之下,Google凭借着在自然语言处理(NLP)上的技术优势,推出了为专利分析量身打造的BERT算法模型。也许初步看起来,BERT能做的不过是「猜单字」而已,但若能吸引更多人投入,假以时日必然不容小觑。
图片来源 : shutterstock、达志影像
专利分析的重要性不言可喻,分析方法也相当五花八门,但能获得市场认可的却相当有限。原因很简单却也很难克服:专利文本内的文字数量太过庞大,而且许多字句的用法也与日常生活不同,想要用量化的方法进行分析难免挂一漏万,精准度也稍嫌不足;如果改用逐篇阅读、比对的方法又相当旷日废时,还得再加上不同语言的隔阂。因此,就算明知专利数据是个大金矿,但真能从中挖出黄金的还是少之又少。
在众多科技大咖中,Google很早就对专利产生兴趣。2006年时,Google就推出了名为「Google Patents」的专利搜索引擎服务,让使用者可以从中搜索超过全球各国的获证专利或申请中的专利文件,总数量超过1亿篇。其中,包括五大局(IP5,分别为:USPTO、EPO、JPO、KIPO、CNIPA)在内,全球有17个专利局公告的专利全文,都可以透过Google Patents获得。到了2018年时,Google Patents也与Darts-ip合作,把专利诉讼的数据也纳入搜寻范围中,让数据库更加完整。
Google从2006年就开始建构全球专利搜寻平台
近年来,Google也开始试着把人工智能(AI)技术的研究成果,应用在专利上。Google在2018年时,就在自然语言处理(Natural Language Processing, NLP)领域发布了BERT算法,并逐步运用在机器人聊天室(chatbot)、搜寻、自动完成(autocomplete)中。到了今年11月底,Google又对外释出了使用BERT架构的专利文件技术专属方案,让全球的研发机构和专利产业使用。
由于专利文件用语的特性,Google这次也对BERT算法的技术进行了微调。首先,在对文本进行分词(tokenization)时,为了使语意分析更精准,这套方案里的BERT使用的并不是一般分词方法,而是针对特定技术领域重新设计。例如,对于「义肢(prothesis)」这个字,在通用的分词技术上可能会被切割成 “pro”、 “the”、 “is”三个片段,但在分析专利文本时, “prothesis”就会被视为一个完整片段来分析。
此外,专利文件跟一般文书也有结构上的差异,例如摘要(abstract)的内容可能是简短的描述性文字段落,而请求项(claim)则可能是有归属或前后关系的条列式文字。为了反映这个特性,Google又另外设计了五种标记(token)套用在专利文件的各个段落中,让分析模型更为精准。
那么,BERT算法在专利分析上又有何用呢?以Google提供的报告来看,最显著的功能在于辨识以及产生关键的同义字(synonsyms)。首先,Google挖空了三份专利文件摘要中的 “eye”单字,再把这三份文件送进BERT算法分析并预测被挖空的单字。结果,在测试的三份文件里,第一和第三份都把正确的答案(eye)列为第一预测结果,而第二份文件则是列为第三预测结果,预测的精准度相当高。
图1:Google使用BERT算法的第一份预测结果。预测1即为正确答案(eye),预测2则为相近的retina
BERT算法已经具备不同技术领域的语言分析能力
可别以为这只是简单的猜单字游戏而已。Google指出,这三份专利摘要所描述的其实是三个互异的技术领域:第一份是视觉处理系统的节能方法、第二份是纺织机器、第三份则是关于非侵入式的医疗程序。换句话说,虽然三份专利摘要里都有 “eye”单字,但语意跟使用情境都大不相同。然而,经过BERT的分析后,不但都能得出正确的预测结果,系统也会给出与正确答案相似的其他结果,例如第一份预测中出现过的 “retina”答案,就没有出现在第二、第三份预测中。这样的结果也反映了BERT对于不同技术领域用语的熟悉度。
在实际应用上,Google认为,BERT算法将有助于企业的专利部门改进内部的机器学习模型,各国的专利局也可以将BERT应用在专利审查以及前案检索上。目前,Google也已经将全套程序代码、操作指引、范例都发布在Github上,任何人都可以根据自己的需求开发出其他应用。
有了Google以及人工智能的加入,未来的专利分析也必然会更加精采。
数据源:
- How AI, and specifically BERT, helps the patent industry, 2020/11/21, GOOGLE CLOUD PLATFORM
- Leveraging the BERT algorithm for Patents with TensorFlow and BigQuery, 2020/11/20
好消息~北美智权报有微信公众号了!
《北美智权报》内容涵盖世界各国的知识产权新闻、重要的侵权诉讼案例分析、法规解析,以及产业与技术新知等等。
立即关注北美智权微信公众号→ NAIP_IPServices
~欢迎读者分享与转发~ |
|
|
作者: |
蒋士棋 |
现任: |
北美智权报资深编辑 |
学历: |
(台湾)政治大学企管系 |
经历: |
天下杂志记者
今周刊记者 |
|
|
|