各國專利局都正在研究如何使用人工智慧(AI)協助工作,更有許多研究機構與企業,投入使用AI來撰寫專利的可能。在這片風潮之下,Google憑藉著在自然語言處理(NLP)上的技術優勢,推出了為專利分析量身打造的BERT演算法模型。也許初步看起來,BERT能做的不過是「猜單字」而已,但若能吸引更多人投入,假以時日必然不容小覷。
圖片來源 : shutterstock、達志影像
專利分析的重要性不言可喻,分析方法也相當五花八門,但能獲得市場認可的卻相當有限。原因很簡單卻也很難克服:專利文本內的文字數量太過龐大,而且許多字句的用法也與日常生活不同,想要用量化的方法進行分析難免掛一漏萬,精準度也稍嫌不足;如果改用逐篇閱讀、比對的方法又相當曠日廢時,還得再加上不同語言的隔閡。因此,就算明知專利資料是個大金礦,但真能從中挖出黃金的還是少之又少。
在眾多科技大咖中,Google很早就對專利產生興趣。2006年時,Google就推出了名為「Google Patents」的專利搜尋引擎服務,讓使用者可以從中搜索超過全球各國的獲證專利或申請中的專利文件,總數量超過1億篇。其中,包括五大局(IP5,分別為:USPTO、EPO、JPO、KIPO、CNIPA)在內,全球有17個專利局公告的專利全文,都可以透過Google Patents獲得。到了2018年時,Google Patents也與Darts-ip合作,把專利訴訟的資料也納入搜尋範圍中,讓資料庫更加完整。
Google從2006年就開始建構全球專利搜尋平台
近年來,Google也開始試著把人工智慧(AI)技術的研究成果,應用在專利上。Google在2018年時,就在自然語言處理(Natural Language Processing, NLP)領域發布了BERT演算法,並逐步運用在機器人聊天室(chatbot)、搜尋、自動完成(autocomplete)中。到了今年11月底,Google又對外釋出了使用BERT架構的專利文件技術專屬方案,讓全球的研發機構和專利產業使用。
由於專利文件用語的特性,Google這次也對BERT演算法的技術進行了微調。首先,在對文本進行分詞(tokenization)時,為了使語意分析更精準,這套方案裡的BERT使用的並不是一般分詞方法,而是針對特定技術領域重新設計。例如,對於「義肢(prothesis)」這個字,在通用的分詞技術上可能會被切割成 “pro”、 “the”、 “is”三個片段,但在分析專利文本時, “prothesis”就會被視為一個完整片段來分析。
此外,專利文件跟一般文書也有結構上的差異,例如摘要(abstract)的內容可能是簡短的描述性文字段落,而請求項(claim)則可能是有歸屬或前後關係的條列式文字。為了反映這個特性,Google又另外設計了五種標記(token)套用在專利文件的各個段落中,讓分析模型更為精準。
那麼,BERT演算法在專利分析上又有何用呢?以Google提供的報告來看,最顯著的功能在於辨識以及產生關鍵的同義字(synonsyms)。首先,Google挖空了三份專利文件摘要中的 “eye”單字,再把這三份文件送進BERT演算法分析並預測被挖空的單字。結果,在測試的三份文件裡,第一和第三份都把正確的答案(eye)列為第一預測結果,而第二份文件則是列為第三預測結果,預測的精準度相當高。
圖1:Google使用BERT演算法的第一份預測結果。預測1即為正確答案(eye),預測2則為相近的retina
BERT演算法已經具備不同技術領域的語言分析能力
可別以為這只是簡單的猜單字遊戲而已。Google指出,這三份專利摘要所描述的其實是三個互異的技術領域:第一份是視覺處理系統的節能方法、第二份是紡織機器、第三份則是關於非侵入式的醫療程序。換句話說,雖然三份專利摘要裡都有 “eye”單字,但語意跟使用情境都大不相同。然而,經過BERT的分析後,不但都能得出正確的預測結果,系統也會給出與正確答案相似的其他結果,例如第一份預測中出現過的 “retina”答案,就沒有出現在第二、第三份預測中。這樣的結果也反映了BERT對於不同技術領域用語的熟悉度。
在實際應用上,Google認為,BERT演算法將有助於企業的專利部門改進內部的機器學習模型,各國的專利局也可以將BERT應用在專利審查以及前案檢索上。目前,Google也已經將全套程式碼、操作指引、範例都發布在Github 上,任何人都可以根據自己的需求開發出其他應用。
有了Google以及人工智慧的加入,未來的專利分析也必然會更加精采。
資料來源:
How AI, and specifically BERT, helps the patent industry , 2020/11/21, GOOGLE CLOUD PLATFORM
Leveraging the BERT algorithm for Patents with TensorFlow and BigQuery , 2020/11/20
作者:
蔣士棋
現任:
北美智權報資深編輯
學歷:
政治大學企管系
經歷:
天下雜誌記者
今周刊記者
Facebook
在北美智權報粉絲團上追踪我們
Please enable JavaScript to view the comments.