A computer-implemented method for transcribing speech comprising:
receiving an input audio from a user;
normalizing the input audio to make a total power of the input audio consistent with a set of training samples used to train a trained neural network model;
generating a jitter set of audio files from the normalized input audio by translating the normalized input audio by one or more time values;
for each audio file from the jitter set of audio files, which includes the normalized input audio:
generating a set of spectrogram frames for each audio file;
inputting the audio file along with a context of spectrogram frames into a trained neural network;
obtaining predicted character probabilities outputs from the trained neural network; and
decoding a transcription of the input audio using the predicted character probabilities outputs from the trained neural network constrained by a language model that interprets a string of characters from the predicted character probabilities outputs as a word or words.
在Alice測試的第一步中,審查委員認為其所主張的發明指向使用數學方程式,即predicted character probabilities (字符的預期機率),對輸入的語音進行解碼而轉錄成文字或文字數據,並認為因為使用了字符的預期機率,導致該發明所涉及的抽象概念與Benson案類似。同時,審查委員將該發明總結為三個步驟:(1) 將輸入的語音數據標準化 (即操作數據);(2) 基於每個語音檔案產生成頻譜圖幀 (基於在先數據集生成數據集);(3) 使用數學公式將語音數據轉換為文字數據 (解碼)。據此審查委員還認為,既然聆聽語音檔案,並將其轉錄為文字,可以憑藉人類心智而完成,因此所主張的發明還屬於「組織人類行為的特定方法」範疇。在Alice測試的第二步中,審查委員指出所主張的發明只是利用數學關係或方程式,將語音數據轉換為文字數據,並未顯著超越抽象概念 (…the claims do not amount to significantly more than the abstract idea.),綜上,該請求項不具備適格性。
首先,應該是由於PTAB這份裁決早於PEG Oct update的關係,因此裁決內容與最新實務見解有小小的出入。PEG Oct update指出抽象概念下的各種類型或是子類型彼此並非互斥,一個請求項的確是有可能同時落入抽象概念中的不同類型或子類型[3]。PTAB針對該請求項並未涉及組織人類行為的方法的論述的確是正確的,但「PTAB根據備忘錄中,心智活動與組織人類行為的方法並列為抽象概念下不同的範疇,因此PTAB並不同意審查委員將請求項歸類為組織人類行為的方法或心智活動的處分」的這個說法卻與最新實務不同。但這並不影響這個案例的參考價值。
涉及AI領域方法項由於先天上的限制,撰寫上極容易落入PEG Oct update列舉的抽象概念範疇,例如normalizing、generating、obtaining、decoding…等用遣詞,從業人員基本上可以絕了螺螄殼裡做道場的念頭,利用不同的用語 (wording) 脫逸出step 2A判斷一,可說是難上加難。然而此一案例演示了如何提出step 2A判斷二、step 2B方面答辯的方向,以及PTAB所採取的觀點,對從業人員在AI領域案件的撰寫與答辯上則極具參考價值。