北美智权股份有限公司

语音识别在应用的概念上，是训练一个AI模型去侦测声音并传送一个文字讯息或语意理解后转成语音命令来控制智能装置，让人类生活因智慧科技而更加便利。基于产业对于AI语音识别之需求，透过语音识别云端服务可提供产业进行客制化语音识别模型，达到智能控制或操作之模式以协助相关产业进行人机互动的创新应用。如图1所示，包括智能居家、语音助理、车联网、行动载具等皆以云端服务的形式运作，透过应用程序编程接口 (Application Programming Interface，简称API)[1]随时接受使用者提出的需求。

许多新创IT公司与大企业都看好语音识别的应用，纷纷投入AI语音识别领域，并持续提升其辨识的精确度。当下AI语音识别功能已进入市场的战国时代，已可在电视产业、智能音箱等智能家电市场、急救市场、保险业市场、客服市场，以及会议记录制作、文书化作业、企业面试辅助选才等不同领域，达到个人消费市场与产业界所需要的技术水准。同时也渗透延伸至车内场域抢占车载语音应用商机，并帮助语言障碍者的话更能被听懂而成为语言障碍者精准的传声筒。

在智能音箱(或称智能喇叭)方面，智能音箱系使用语音对话和用户互动，透过内部系统的语音助理从语音识别理解用户的指令并忠实的执行，可用来操控音乐拨放、查询天气或交通信息等各种服务，就像是辅助生活起居的管家，贴心地服务每一位使用者。近年Amazon、Google、Apple及Line等大厂相继展示自家的智能喇叭，以LINE来说，Line自2017年发表云端AI技术平台Clova (简称Clova AI) 后，将自家的Clova AI放进智能喇叭而相继推出智能喇叭Clova WAVE及智能喇叭Clova Friends等搭载Clova AI的周边产品，作成受欢迎的LINE Friends造型，除了可爱之外还有与使用者对话互动、气象预报、提供时事新闻、语音遥控等功能。

此外，在电视家电方面，乐金电子 (LG Electronics) 电视事业为对抗Sony、Panasonic等日本消费性电子巨头，在较偏好本土品牌的日本电子产品市场，透过日语AI语音识别功能提升竞争力，包括于日本销售的OLED TV以及于Nano Cell LCD TV等中高阶机种追加搭载人工智能(AI)语音识别功能，有助提高乐金电视产品亲和力。[2]

为缩短文书作业时间，利用AI语音识别功能分析说话者内容，并自动制作逐字文本文件的服务，已开始打入日本企业及公家机关市场。日本电信大厂NTT集团的NTT出版 (NTT Publishing)与NTT TechnoCross合作，运用云端语音数据转换为文书数据的深度学习人工智能，可以将30分钟的演讲在30分钟内实时转换为文字数据。日本IT大厂NEC进一步研究，降低AI语音识别所需要的发音时间及误认率，并进行语音特征识别作为认证系统的使用，以利其商用化。日本电机大厂东芝 (Toshiba) 也开发精进的会议纪录系统，强调逐字会议记录正确率达85%，且会自动辨识不需要的发语词或重复字句，以提高会议纪录制作效率。[3]

日本已有急救单位引进人工智能的语音识别服务。日本千叶大学(Chiba University) 设立的新创企业Smart119，利用人工智能语音识别提供消防队与急诊用的语音服务，并导入文书化作业，目的是让急救人员现场的问话可以实时文字化提供医院，让急诊室人员先行准备，同时节省制作病历等文书作业的时间[4]；目前仍有杂音干扰识别及医学专有名词分析能力不足等问题，用于急救场域的AI语音识别技术需要提升识别精确度来克服这方面的不足。[5]

在日本主要经营声音辨识系统相关事业的Advanced Media为提高语音识别的精确度，研发过程中将日常口语、文章用语、电话对话等不同类型的人声对话，分别以不同的AI程序依据不同状况进行辨识，研发出iPhone 3GS专用的语音识别认证技术，并已导入日本AIGedison保险公司的业务系统中，让保险营业员外出时可透过语音直接经由iPhone 3GS安全存取公司内电子邮件系统或顾客个人契约信息[6]。此外，撰写与寄送公司内部电子邮件、地图搜寻、顾客数据库搜寻等全都能透过语音来执行，使营业员在进行业务时能以更加方便的模式拓展客源或服务客户，成为保险业新型态的业务模式。

AI面试官主要是基于语音实时转移、关键词提取匹配、语义理解来判断求职者是否和职位描述想匹配。换言之，这种AI智能面试系统往往是结合AI领域中之语音识别算法及自然语言处理(NLP)，以问答形式来获取一些职位匹配相关的关键信息。

基于新冠病毒大流行，许多大型企业已开始利用AI面试 / Digital Interview辅助选才，例如HireVue开发的AI招聘系统，结合了摄影机和计算机运算，协助企业进行初步筛选，让应征者透过计算机或手机的视讯设备来接受面试，面试时只要回答屏幕上的问题，并将过程拍摄下来，再交由AI算法来分析，可协助企业对人才进行初步筛选[7]。像高盛 (Goldman Sachs) 及联合利华 (Unilever) 等知名企业就开始采用HireVue的AI面试平台来为毕业生培训计划进行选才。再者，日本人才公司En Japan的测试软件系依据个人基本数据、工作专长技能、性格特征等数据，让即将毕业的大学生对着一台只会发问的手机，进行长达一个小时、一问一答的面试；面试包含126个问题，收集近15年的面试问答训练而成[8]。此类「面试官」藉助语音识别算法来统计语音、语调等，对应聘者的反应速度、心理情绪等进行分析。此外，这种AI智能面试系统也借助NLP算法，对回答进行关键词和语义分析，结合与企业业务和职位需求的相关问题，进行匹配度的初始判断。

从目前潮流来看，不少招聘平台以AI智能面试系统进行初筛，在AI算法的辅助下，大幅缩减人资部门筛选人才所需的时间，企业能在更短的时间内审视更多求职者信息并做出更客观的判断，包括求职者是否符合企业文化[9]。

车载信息娱乐 (In-Vehicle Infotainment；IVI) 系统提供导航、影音播放等功能，为汽车驾驶人开车时带来方便，但使用时会减低驾驶专注力而导致车祸风险。为减少驾驶人分心造成的危险，于是在车载信息娱乐系统加入AI语音识别操控功能。得益于自然语言技术的成熟与语音识别能力的提升，使得AI语音识别功能从智能居家渗透延伸至车内场域。以奔驰(Mercedes-Benz)汽车推出的A-Class为例，奔驰自行研发的车载信息娱乐系统MBUX结合了AI语音识别技术，只要透过「您好奔驰」唤醒系统，就可以用声音操控车内各项如影音、导航、空调等功能。驾驶若要调整车内空调温度，只要开口说「您好奔驰，这里很热」，无需动手系统就会自动调降空调温度，方便又安全[10]。

车载信息娱乐系统语音功能演进，已从过去的手机免持通话、语音控制音乐拨放等车载系统的本机语音功能演进至包括如云端搜寻、自然语言理解和汽车语音助理的云端语音功能 (图2)[11]。人工智能技术的兴起确实对于汽车导航、文字简讯等语音识别能力的改善精进不少，让车用情境的对话更为精准。例如苹果2012年发布Siri，用户可对着智能型手机说话，不必逐字输入就能在云端搜寻餐厅或查询天气；又搭配自然语言理解，使得像微软 (Microsoft) 的Cortana、亚马逊(Amazon)的Alexa以及Google的Assistant等科技大厂相继推出的智能助理，功效显著提升。其中Google Assistant (Google助理) 利用智能型手机与车载信息娱乐系统串接，让汽车语音得以从云端数据库比对文本 (text) 与地图地址，让简讯内容与目的地搜寻更精准，方便驾驶人在开车时快速响应紧急事务与路线导航。

图2 车载信息娱乐系统语音功能的演进

图片来源：DIGITIMES Research，2018

依据世界卫生组织 (World Health Organization，WHO) 的统计，全球约有15%的人口患有不同程度的语言障碍，生活周遭像是渐冻人、中风、帕金森氏症等神经系统疾病患者在言语沟通上会有困难，需要时下AI智能科技的辅助。为使 AI也能帮助语言障碍者进行沟通，Google在I/O 2019大会上发表最新的AI语音技术，展示其对语言障碍者的最新计划。Google的Project Euphonia 团队透过 Google 软件把录下的语音转成声谱图，或以更可视化的图像方式来呈现声音，再利用声谱图训练系统，优化机器辨识这些非典型的语音数据。同年Google也在东京举办的AI机器学习论坛上，展现其用科技助人的AI工具，使机器听懂指令，并使用可辨识手势、眨眼等计算机视觉模型，让语言障碍人士更能够独立表达。然而，此方法仍有可能因机器选择到不正确的单字而有沟通上的误差产生。

因此，Google更进一步以新的深度神经网络研究推出新的计划Parrotron，堪称是语言障碍者精准的「传声筒」。Parrotron系由单个端到端深度神经网络训练而成，可将一般人与计算机较难辨识的语音，例如渐冻人或听障者等非典型语音模式的语言，直接转换为流利的合成语音，且过程中跳过语音识别的中间步骤，省去中间的文字转录。即便有错误发生，藉由Parrotron 端到端语音到语音训练所生成的输出语音，在声音上听起来和输入语音的原意已经很接近，让听障者能更容易被理解[12]。

AI技术不仅能辨识说话者的文字内容分析语意，也能就声波的变化分析进而判别说话者的情绪，称之为语音情绪辨识技术。在语音情绪辨识技术上，主要计算音高(pitch)、共振峰(formant)、音框能量 (frame energy)以及梅尔倒频谱系数(Mel-scale Frequency Cepstral Coefficients, MFCC)　等与语音情绪相关的特征参数，利用支持向量机　(Support Vector Machine, SVM)　分类器，依特征参数对情绪进行分类。国外已有不少客服中心　(Call Center)　如Cogito、Beyond Verbal、iMotions等导入此语音情绪辨识技术。因为当客服专员与人应答时，除了掌握对方言语中的需求外，同时要感受对方当下的情感信息，才够在提供客观信息的同时，适切地给予问候、道歉甚至是安慰、鼓励等话语。因此未来在自动化的应答服务中，为了掌握对方情感信息，可加入语音情绪的辨识机制，辨认出使用者的情绪参数，并依据此参数调整合成语调或语句，特别是在应答内容中适度加入具同理心的语调和词句，如此适当的响应有助于增进客服在感性要求上的提升[13]。

Google推出的Parrotron在声音上听起来和输入语音的原意已经很接近了，AI语音识别帮助语言障碍者的话更能被听懂，堪称是语言障碍者精准的「传声筒」[14]。然而，AI语音识别技术当下仍有许多待解决的难点，例如区域口音或带口音的语音识别，其辨识的准确率仍是需要解决的一大挑战。同时，语音不只是表达语言而已，辨识的过程中若将发音人的情绪与其他参数纳入语音情绪的辨识机制，在自动化应答服务中适度加入具同理心的语调和词句，更有助于增进客服在感性要求上的提升。

近年虽有不少科技公司利用深度学习多层人工神经网络的AI语音识别技术提升其辨识精准率，然而一个好的神经网络必需仰赖大量的数据，为克服复杂恶劣的声学环境，AI语音识别技术势必会与大数据 (Big data)、物联网 (IoT) 等技术结合，以突破AI声学的发展，达到提升人类生活质量的目的。

应用程序编程接口(Application Programming Interface，简称API)，以遵循服务供货商提供的使用方式来呼叫及执行程序。
https://www.digitimes.com.tw/tech/dt/n/shwnws.asp?CnlID=1&id=563997&query=AI+and+%BBy%AD%B5%BF%EB%C3%D1
https://www.digitimes.com.tw/tech/dt/n/shwnws.asp?CnlID=1&id=557259&query=AI+and+%BBy%AD%B5%BF%EB%C3%D1
http://www.chiba-u.ac.jp/research/coe_gp/result/medical/aismart119.html
https://www.digitimes.com.tw/tech/dt/n/shwnws.asp?CnlID=1&id=557259&query=AI+and+%BBy%AD%B5%BF%EB%C3%D1
https://www.advanced-media.co.jp/newsrelease/file/20100223095630_0.pdf
https://www.businessinsider.com/hirevue-ai-powered-job-interview-platform-2017-8
攻略AI面试官的N种姿势，https://kknews.cc/news/gpbnvoy.html
Kyodo, Artificial intelligence used in hiring at Japanese companies, to read résumés and check applicants fit the corporate culture, 2020 June 24, https://www.scmp.com/lifestyle/article/3090080/ai-used-hiring-japanese-companies-read-resumes-and-check-applicants-fit
https://www.bnext.com.tw/article/51134/microsoft-mercedes-benz-ai-digital-transformation
陈彦志，人工智能语音助理从家庭延伸至车内道路驾驶情境需求单纯有利后装市场装置发展，2018年10月26日，https://www.digitimes.com.tw/tech/rpt/rpt_show.asp?CnlID=3&v=20181026-226&n=1&query=%C5%FD%A8T%A8%AE%BBy%AD%B5%B1o%A5H%B1q%B6%B3%BA%DD%B8%EA%AE%C6%AEw%A4%F1%B9%EF%A4%E5%A5%BB
Kyle Wiggers, Google’s Parrotron is an AI tool for people with speech impediments, 2019 July 17, https://venturebeat.com/2019/07/17/googles-parratron-is-an-ai-tool-for-people-with-speech-impediments/
李俊升、黄珠娟、许馨仁、林明慧，语音情绪辨识技术与应用之研究，台湾感性学会研讨会论文，2010年10月23日，页187-191。
Kyle Wiggers, Google’s Parrotron is an AI tool for people with speech impediments, 2019 July 17, https://venturebeat.com/2019/07/17/googles-parratron-is-an-ai-tool-for-people-with-speech-impediments/