011期
2017 年 6 月 16 日
  北美智权官网 历期电子报 / 电子报订阅管理  
 
当Google与Apple的语音助手专利遇上Alice
苏之勤/北美智权专利工程研究组

在物联网设备不断推陈出新的同时,语音智能助理是不能被忽视的一个重要角色。以智能家居为例,当玄关、客厅、卧室以及厨房等都布满智能装置时,一个类似电影钢铁人中Jarvis的智慧助理就能让你更轻松地操控各式家电以及完成叫pizza、网购等语音消费行为。但当Siri或Alexa不再只是回答天气、时间或各式无害的蠢问题,而是执行理应需要先行授权的指令时,有什么方法可以在越来越复杂的使用情境下,避免家中儿童不经意地订购了一卡车的玩具?或是防止有心人士用录音回放的方式启动你的智慧助理呢?以下将介绍Apple与Google针对语音助理的相关技术以及其专利分析。

在进入接续段落前要先说明的是,本文中强调的操作情境是「动口不动手」,也就是说仅用语音作为启动以及命令的媒介,优先排除了例如手动输入密码等既有的认证方式。

Patent Bibliography US 14/943287
Title: HOTWORD RECOGNITION
Appl. Date: 2015-11-17
Applicants: Google Inc.

定价129美元的Google的语音助理Google Home具有圆润的外型,在其官网的介绍影片[1]中,以多元成家的二位爸爸分别向同一个Google Home查询自己的行事历来展示支持辨识多用户的功能。然而现有的声纹辨识技术应已能辨识不同人的声音,所以Google申请的US 14/943287这篇专利的技术主体并不是多使用者之辨识,而是有关如何防止未授权者利用例如录音等方式记录下装置拥有者用于装置解锁,或是取得授权的热词(hotword)后,将声音回放来通过语音验证,Google将这行为称作回放攻击(replay attack)。

图1. US Patent No. 14/943287之图1

图片来源:USPTO

图1展示了从系统100侦测到用户的发声(utterance; 此处范例为“Ok Computer”) 110后,声音子系统120接收声音并处理后丢给热词侦测器130,若确定发声有对应到热词则继续传递给声纹产生器140,接着回放攻击引擎150会比对产生的声纹以及热词声纹数据库中的数据,如果比对结果是相符合的(match),则锁住装置或是维持锁住状态,若不相符合则允许执行查询或指令。

看到这里可能会觉得奇怪,怎么会比对符合反而被锁住呢?主要是因为此技术是比对热词的声纹,而非发声的声纹,其判断逻辑是经比对后如果出现符合的热词声纹则可能就是回放攻击。

在说明书中有提到其比对方式是经过近似度等分析后,回放攻击引擎150会产生一个近似度分数(similarity score),再确定该近似度分数是否满足预先决定的门坎分数(predetermined threshold score)。而这近似度分数或是门坎分数会随着热词后接续之指令的敏感度而有所调整,举例来说,询问行事历因为涉及个人或是私人数据,所以该指令的敏感度会高于例如询问天气,进而降低回放攻击成功的机率。另外如果藉由环境背景声判断热词声纹是在公众场所或非于信任场所(例如家中)产生的,则该热词声纹会被认为可能是回放攻击。

在图2中,“Call Mom”是接续于热词“Ok Computer”的指令,所以在方块214比对的是热词与指令是否来自同一使用者,符合的话则执行查询或指令,这就与前述的回放攻击比对不同(方块205)。此外,虽然说明书中并未明确记载,但在多重用户之辨识的步骤应该是在回放攻击比对时进行。

图2. US Patent No. 14/943287之图2A

图片来源:USPTO

Google这篇美国专利在2017年5月1号获证,在审查过程中,审委并未发出新颖性或非显而易见性的核驳,而是以相当长的篇幅说明原始claims不符合专利适格性,其中包括请求项(1)指向非法定目标(non-statutory subject matter)以及(2)指向司法例外且没有显著超过,而第二点也就是近几年令申请人头痛的Alice rejection。由于本案申请人在收到Office Action后与审委进行了电话面询,推测其答辩意见多已于电询中说明,所以在其递交的答复理由中并无太多关于其如何克服专利适格性的数据,故此处仅从其修改的请求项(图3)推测,在修改的内容中,“despite determining that the audio data corresponds to the hotword”是关键,其意义就是告诉审委此案的replay attack的特征是基于现有声纹符合即可开锁的技术下所附加的限制条件,且其带有进步效果,至少在Alice test的Step 2的“in combination”时是显著超过抽象概念的。

图3. US Patent No. 14/943287 Amended Claim (红框为本文加注)

图片来源:USPTO

Patent Bibliography US 15/163392
Title: SPEAKER RECOGNITION
Appl. Date: 2016-05-24
Applicants: Apple Inc.

Apple虽然目前还没有类似Google Home或是Amazon Echo的商品,但其在另一篇专利US 20170092270中,隐约透露未来Apple应该也会推出类似的商品,就如图4所示,装置608应就是语音智能助理的硬件装置。

图4. US Patent No. 20170092270 之图6B

图片来源:USPTO

不过本文要介绍的是另一篇苹果专利US 15/163392,其系有关(1)多重使用者辨识以及(2)自定义启动词语,换句话说,未来版本的iOS中可能不用再喊“hey, Siri”了。

图5是392专利对于多重使用者之辨识的总流程图,其中包含许多因应不同状况的子流程(圆圈A、E等),本段观察的重点是区块902以及904。在说明书中,Apple把“hey, Siri”这种启动词语称作语汇触发器(lexical trigger),使用者可自定义的语汇触发器(user-customizable lexical trigger)可以是使用者的自然话语,例如“hey there, boss”,也可以是不同于话语的声音,例如口哨,或是由用户或用户操作之装置所产生的非话语的发声(utterance)。另外说明书也有提到,自定义的好处是可以加强安全性,因为未授权者较难猜出使用者设定的词语,此外,一声“hey, Siri”同时唤起办公桌上所有iPhone的问题也能被解决。但是自定义也是有些限制的,淫秽的(obscene)、冒犯的(offensive)、不雅的(tasteless)的词语是被禁止的。

说明书中提到侦测到用户的声音特征变换除了是新用户以外,使用者身处不同环境例如浴室或草坪以及感冒或过敏等健康状况的变化都会影响声音特征,智能助理应该要能根据这些数据来预期用户声音的不同。Apple这些设想相当周到,但可能仍需更完善的物联网环境才能提升效果。

图5. US Patent No. 15/163392之图8A

图片来源:USPTO

接续的观察重点是392专利的保护范围,至本文截稿时,392专利已收到第一次Office Action,申请人尚未回复,所以是尚未核准的专利。如图6所示,Apple把多重使用者辨识以及使用者自定义语汇触发器的技术特征都有放到Claim 1中,若辨识相符合则唤醒虚拟助理(第一个红框),若辨识失败则放弃唤醒的动作。

但Apple这篇专利跟上述Google的287专利一样在审查时遇到35 U.S.C. 101专利适格性的Alice rejection,被判定是抽象概念且未显著超过(如图7)。拿287专利来比较,二者都是与语音识别技术以及智慧助理相关,只不过Google因为是针对回放攻击,所以在辨识成功后是禁止唤醒,而Apple恰好相反,辨识成功是执行唤醒。

从这二专利案的审查可以得知,以这二案原始的claims来说,在审委的眼中,根据资料A、B做出决定C只是数学比较关系或只是单纯的想法(an idea of itself),并不具可专利性。这时可回想Google怎么克服Alice核驳,其新增的限制条件“the computing device being configured to exit the lock mode based on determining that the audio data corresponds to a hotword”在某个角度上就是Apple这篇专利Claim 1的状况(一般状况),配上“despite determining that the audio data corresponds to the hotword”的限制,原本的“回放攻击处置”就变成“在一般状况下的回放攻击处置”,因而克服101核驳,至于Apple未来如何克服值得追踪观察。

图6. US Patent No. 15/163392 Claim 1 (红框为本文加注)

图片来源:USPTO

图7. US Patent No. 15/163392 Office Action (红框为本文加注)

图片来源:USPTO

备注:

 

作者: 苏之勤
现任: 北美智权专利研发部专利工程研究组研究员
学历: 政治大学科技管理研究所硕士
交通大学材料与工程学系学士
经历: 法律事务所专利工程师

 


 





感谢您阅读「北美智权报」,欢迎分享智权报连结。如果您对北美智权电子报内容有任何建议或欲获得授权,请洽:Editorial@naipo.com
本电子报所登载之文章皆受著作权保护,未经本公司授权, 请勿转载!
© 北美智权股份有限公司 & 北美联合专利商标事务所 版权所有 234 台湾地区新北市永和区福和路389号五楼 TEL:+886-2-8923-7350