人类要想自然地与设备进行对话,语音识别就必须得到大幅改进。
谷歌语音操作
过去几年,语音识别取得了很大进步,大部分要归功于神经网络。然而,神经网络需要大量数据进行训练。正因为此,谷歌、微软、亚马逊、百度等科技公司都在尽可能地收集各种语言、口音以及方言。另外,百度等公司也在开发更为高效的算法,不需要那么多数据就能提高语音识别准确率,这有利于数字助手学习使用较少的语言。
亚马逊智能音箱Echo已经兑现了让千家万户都有一台人工智能个人助手的承诺。Echo用户容易被语音助手Alexa的“魅力”所征服,对于Alexa可以实现Uber打车、预订披萨以及检查10年级学生数学作业的能力赞赏有加。亚马逊称,每天有5000多人表达对于Alexa的喜爱之情。
另外一方面,Alexa的拥簇也知道,除非他们非常清晰、缓慢地与Alexa对话,否则她很可能会说:“抱歉,我无法回答这个问题”。
“我爱她,既爱又恨,”一位用户在亚马逊网站上写道,但依旧给予Alexa五星评价,“你需要很快速地学习如何以一种她听得懂的方式与她交流,就像和一个初学走路的小孩交流一样。”
过去几年,语音识别已经取得了很大进步,但是仍未好到足以广泛用于日常生活中,引领人机交互的新时代,让我们与汽车、洗衣机以及电视等所有设备进行对话。虽然语音识别取得了一定进展,但是多数人仍在触摸、滑动以及点击屏幕。在可预见的未来,这种局面或许仍会持续下去。
那么,是什么因素阻碍了语音识别的发展呢?在一定程度上讲,语音识别背后的人工智能技术还有改进的空间。它还面临严重的数据缺失问题,具体来说就是人类声音的音频、在喧杂的环境下往往会出现的多种语言、口音以及方言。这些因素都可能会导致语音助手无法准确识别人们的语音。
因此,亚马逊、苹果、微软以及百度都已经开始在全球范围内收集数以TB的人类语音数据。微软已经在全球各个城市建立了模拟公寓,录制志愿者的本土口音。亚马逊每个小时都会把用户向Alexa提出的问题上传到一个庞大的数字仓库中。百度则忙于收集中国的每一种方言。随后,他们就会利用这些数据教计算机如何分析、理解以及回应指令和问题。
科技公司在这一过程中面临的挑战是:找到一种方法捕捉到自然、真实的对话。百度加州人工智能实验室负责人亚当·考特斯(Adam Coates)表示,即便是语音识别准确率达到95%,这仍不够。“我们的目标是将错误率降至1%,”他表示,“只有达到这种水平,你才能真正相信设备理解了你所说的话,那将是一场变革。”
就在不久前,语音识别技术还处于一个初级阶段,给出的答案十分滑稽。2006年,微软在分析师和投资者面前演示了Windows平台早期版本的语音识别技术。然而,微软语音识别技术把“妈妈”听成了“阿姨”。当苹果在5年前推出Siri时,该语音助手给出的答案也令人捧腹大笑,这也是因为它常常提供错误答案或者没有准确识别问题。当被问及吉莲·安德森(Gillian Anderson)是否是英国人时,Siri提供了一份英国餐馆的清单。现在,微软表示,其语音识别引擎的错误率达到了专业速记员的水平,甚至更低。Siri目前的错误率差强人意,Alexa则让人对未来的语音识别技术充满期待。
语音识别技术取得的大部分进展都要归功于神经网络的魔力,后者是一种人工智能形式,基于人脑架构。神经网络的学习不需要接受明确的程序化定制,但是一般需要庞大而且种类丰富的数据。在神经网络架构下,语音识别引擎处理的问题越多,它就能更好地理解不同的声音,进一步接近在多种环境下,与多种语言自然对话的终极目标。
因此,全球科技公司都在争相收集各种声音。“我们在系统中放入的数据越多,它的表现就越好,”百度首席科学家吴恩达表示,“这也是为什么语音识别是这么一种资本密集型技术的原因,并不是有太多机构拥有这么多的数据。”
尽管科技行业在上世纪90年代就开始认真地研究语音识别技术,但是微软等公司依靠的语言数据联盟(Linguistic Data Consortium)等研究所的公开可用数据。语言数据联盟是一个语音和文本数据仓库,创建于1992年,获得了美国政府的支持,属于宾夕法尼亚大学。随后,科技公司开始收集他们的自主语音数据,部分来自志愿者。这些志愿者读出自己的声音,然后由科技公司录制。现在,语音控制软件开始走俏,它收集的大部分数据来自公司的自主产品和服务。
当你使用语音指令在手机上搜索一些东西,播放歌曲或者导航时,科技公司可能就在录制你的声音。苹果、谷歌、微软以及亚马逊强调,他们对用户数据进行匿名化处理,以保护用户的隐私。当你向Alexa询问天气或者足球比赛比分时,它就会利用你的问题改进对自然语言的理解。“借助这一设计,你使用的越多,Alexa就变得越智能,”Alexa项目资深首席科学家尼克·斯特罗姆(Nikko Strom)表示。
其中一个重大挑战就是如何让技术熟悉多种语言、口音以及方言。相比之下,这一问题在中国显得更为重要。为了收集全国各地的方言,百度今年初在新年期间推出了一项营销活动。百度将这项活动称之为“方言保护行动”,该公司表示,如果人们愿意使用方言与百度交流,就是在协助引领一个未来。在两周时间内,百度使用电脑录制了超过1000个小时的语音。许多人甘愿免费提供他们的方言,因为他们对于自己的家乡方言感到自豪。四川的一位高中老师对于这一活动感到十分兴奋,他让一个班的学生使用四川话录制了1000多篇古代诗歌。
另一个挑战则是:如何在嘈杂的环境下教会语音识别技术准确接收指令,例如在嘈杂的酒吧、喧闹的体育场等。微软已经部署了一款名为Voice Studio的Xbox应用,在用户观看电影等活动时收集对话。微软还为愿意提供游戏聊天语音的玩家准备了数字装备等奖励。这一项目在巴西取得了不错效果,微软子公司在其主要Xbox页面上大力推广这一项目。微软把收集来的数据用于开发葡萄牙语版的“小娜”,该版本语音助手已在今年早些时候发布。
科技公司还在专门为具体环境设计语音识别系统。微软正在测试一项技术,它能够在不受到机场广播干扰的情况下回答旅客的问题。微软的这项技术还被用于麦当劳得来速汽车餐厅的自动订购系统。亚马逊还在汽车中测试Alexa,让其在道路噪音和车窗打开的情况下提高语音识别准确度。
即便科技公司在满世界寻找数据,但是他们也在设法找出不需要那么多数据就可以提高语音识别准确度的方法。微软首席语音科学家黄学东表示,正在麦当劳汽车餐厅测试的技术,就要比使用了更多数据的其它系统更为准确。黄学东在微软开发语音识别技术已有20多年时间。“即便在不使用这么多数据的情况下,你依旧可以取得突破,”他表示。
谷歌一般奉行“少即多”的理念,使用零碎,无法理解的声音串连成话语和短句。对于自主语音识别系统,谷歌希望只通过一处改变就能解决多个问题。在数据集问题上,谷歌把数万个一般在两秒至五秒长的音频片段串连在一起。谷歌研究人员弗朗西斯·比乌福斯(Françoise Beaufays)表示,这一过程需要的计算性能更少,更容易进行测试和作出调整。就其本身而言,百度正在开发更为高效的算法。在学习一种语言后,它就能更为容易地学习另外12种语言。吴恩达称,这对于一种只有数万人而不是数百万人会说的语言来说尤其重要,因为它没有大量可用的语音数据。
当吴恩达等研究人员被问及数字助手可能会在何时能够与人类展开自然对话时,他们都没有给出答案。没有人真正知道这一问题的答案。即便是对于最为了解神经网络的人来说,神经网络依旧是一项神秘技术。目前的大部分工作都是试验性的,出了错后进行调整。你无法肯定地说数字助手的自然语言对话将在何时实现。根据当前的技术和方法推测,自然对话可能需要花费数年时间。但是吴恩达、黄学东、比乌福斯以及其他科学家表示,你永远不知道语音识别将在何时取得突破,推动研究大幅前进,把Alexa和Siri转化成真正的对话者。
(编辑:李月)