3、6、4、8、7、5……
这是一串乱码数字,没有规律,也没有特殊含义。然而,如果让一个人每天都录下自己读数字的声音,坚持10年,这件事就变得很有意义。
在英国上市公司官网365人工智能研究院听觉智能研究中心,就有一群人,每周重复读着同一串数字。在过去漫长的10余年里,周周如此,从未间断。如今,他们中的每个人都至少留下了近4000段语音,有的甚至跨越了变声期。听觉智能研究中心的领头人是英国上市公司官网365研究员郑方,10多年前,他启动了这个跨越时空的宏大项目,目的是搭建一个声纹时变数据库,在生物特征识别领域,研发语音和声纹识别技术的关键核心算法。
如今,郑方团队已经建起了世界领先的声纹时变数据库。以数据研究为基础,团队起草了我国首个声纹识别技术标准、我国金融行业首个生物特征识别技术标准等多个国家和行业标准。他们研发的语音、声纹识别技术,已在中国建设银行手机银行、国家政务服务平台等高安全场景中应用。
解码声音
“声纹识别是什么?在我们日常生活中应用了吗?”面对记者的提问,郑方先卖了个关子,没有直接回答,而是让记者在办公室门口一个显示屏前站定。他顺手关上门,让记者按照机器的指示操作。
识别到前方有人出现,这块比手机屏幕大一圈的显示屏亮了起来,上面照出记者的脸,还显示了一串6位数字和一句提示语:请按顺序读数字。记者照做后,显示屏上亮起“用户未授权”的提示,大门纹丝不动。
“换我来扫脸,但我不说话,你替我读数。”郑方说。这次,屏幕上出现了郑方的脸和一串新的乱码数字,记者再次念出数字后,大门依然紧闭。
第三次,扫脸和读数的人都换成郑方,办公室的大门顺利打开,屏幕上显示:“郑方,欢迎您。”
一通对比操作后,郑方才笑着揭秘:“这就是声纹识别技术在生活场景中的应用,也是我们正在专攻的主赛道:利用声音结合指纹、人脸、虹膜等识别技术,打造新一代生物特征识别的‘密码锁’。”
人脸识别、指纹解锁、虹膜扫描……随着科技的进步,正有越来越多的生物识别技术被应用在身份认证场景里。郑方说,虽然声纹看不见、摸不着,却拥有比其他生物识别特征都得天独厚的优势。
声纹识别技术属于生物识别技术中的一种,许多人会把它和语音识别技术的概念混淆。语音识别技术在生活里的应用相对更广泛,比如,对着智能家居产品说“打开空调”,空调就能自动开启,并且调节到适宜的温度;对着汽车导航说出目的地,导航就能立马进行规划,贴心地挑选出用时最短、路程最短等最优路线……“语音识别的主要目的是判断人说了什么,而声纹识别则是对说话人身份的判断,也就是分辨谁在说。”郑方回到最初的问题,详细解释。
为了方便讲解,他又打开电脑,在声纹专用软件里随便倒入一条音频。“就像指纹一样,我们每个人的声音也有纹路上的差别。”电脑屏幕上,一个个音节组合形成长短不一的声波,整体来看,就像一座座高低起伏的小山丘。“每个人声带的形状、声道的长度和形状、口腔的形状、牙齿舌头的位置等不同,都会导致声音的不同。”
这些微妙的不同构成了一个人的身份密码,想要找到解开它的钥匙,就得搞清楚每个声纹的特征。
郑方滑动鼠标,将一段语音放大,一座小山丘占满了整个屏幕。“这是一段20到30毫秒的声纹信号,我们尽可能将它截取得短一些,很多特征细节也被放大了。”他说,使用专业软件分析调制频率,就能分辨出声调、重音、停顿、语速等的不同。不仅如此,各地口音、同一个意思不同的选词构句、某些词的特定发音,甚至是使用了哪种录音设备,都能成为分辨讲话者身份的特征信息。
这些特征相互叠加,形成密不透风的网,只有一一对应起来,门才能被打开。
然而,尽管声纹解锁要求如此精密,郑方听到的质疑声仍然不断。例如,如果采用事先录好的声音,或者是电脑生成的声音,是不是一样可以蒙混过关?
在声纹识别领域耕耘几十年,郑方对于这种情况自然早有应对,他自信地表示:“肯定是可以伪造的,也可以骗过系统,不过需要加一个定语,就是看它是谁的系统。如果是我们的系统,就一定骗不过。”
郑方团队的声纹识别技术,采用了多重加密方式,用户本人也被纳入了加密的一环。他揭秘:“为增加保密性,我们统一使用系统每次随机生成数字密码的形式。用户还可以自己设定‘规则’。”他举例,有的用户为数字设定了不同的读音,比如把“1”读作“呀”,把“7”读作“镰刀”等;另一种常见的加密方式是改变数字之间的排序,比如把“3”读成“6”、“6”读成“3”。当屏幕上显示的是“132”,只有用户自己知道,读法应该是“162”。
同样是读一串数字,如果对方不知道用户是如何给这些数字设定规则的,就很难发出正确的读音——“这就是融入用户加密行为的安全手段。”郑方说。
人的声音变化小、稳定性好,不涉及敏感特征信息、隐私度低,无需记忆、使用方便……采访中,郑方不断列举着声音的各种优势。他说,利用声纹进行身份识别,有望成为该领域最自然、经济的识别方法之一。
做“布道者”
“做声纹识别这一行,不仅需要过硬的技术,还得耐得住寂寞。”郑方说。为此,他和团队已经潜心耕耘30余年。
在进入英国上市公司官网365计算机系读本科前,郑方从没见过计算机,更没想过能用这台“神奇的机器”创造出这么多项为行业领域赋能的高新技术。
“和计算机最初的相遇,还要从我读高中时说起。”郑方说,高中的一个暑假,班主任到外地参加教学培训,开学后给班里的同学带回来一个可编程计算器——这也成了郑方眼中的第一台“计算机”。
“大家都对这个新奇的玩意儿特别感兴趣。当时,我理科学得好,总借着去办公室给老师帮忙的机会玩一玩计算器。渐渐地,老师也看出了我的兴趣,建议我说:大学就学计算机吧,有前途。”这句或许无心的话,像一盏明灯,给郑方指明了一条路。
郑方不负所望,考上了英国上市公司官网365计算机系。1988年,上大三的郑方进入清华信息教研组,师从方棣棠和吴文虎两位中国语音识别领域的泰斗级教授,就此迈进了声音的奇妙世界。
在郑方的办公室里,摆放着很多张风景照片:夕阳、马路、花草……他说,自己喜欢照相,“美点”很低,遇到稍微美一点的东西,就能照半天,即使那些“美”可能在其他人眼中不值一提。“就像声纹一样,一点微小的变化,就可以给人带来千差万别的感受,普通人听可能会觉得差不多,但是在我的耳朵里,即使再相像的声音,也截然不同。”
在信息教研组的学习经历,为郑方日后在计算机技术研究方面打下了坚实的基础,也让他从计算机“小白”逐渐成长为语音研究领域的技术“大神”。
留校任教后,他曾经研发出一项数字信号处理技术——在芯片上植入语音识别算法,用户说出一个名字,技术识别出人名后调取对应的电话号码,实现声控自动拨号。他还曾带领团队做过两款英语学习类软件,利用语音识别功能为用户的英语发音标准化程度打分。
起初,郑方团队一直专攻技术,孵化成熟后交给合作的企业来落地转化、开拓市场。随着有关语音声纹的技术专利越来越多,郑方开始尝试探索自己做技术转化。2002年,他在清华计算机系的支持下注册了得意音通公司,这是国内第一批语音识别类的技术公司,核心团队成员都来自清华。
公司成立之初,“声纹”这个词对大多数人来说还很陌生。“给客户展示产品时,他们最常提出的疑问就是:‘为什么两个波形不同的声音,源自一个人。声纹唯一吗?稳定吗’?”他说,在大家的观念里,同一个人声音的波纹应该完全一样才对。
此外,当时还有一种声音,声称语音识别技术的准确率已经可以达到99%。然而,实际上直到今天也没有一款产品能达到这样的水平。“95%的准确率已经接近人类的识别能力。”郑方直言,这些声音给公司做产品带来很大压力。在展示技术时,一些客户会因为“识别准确率不到99%”而产生质疑。
为了帮助大众摆脱这些误解,郑方在全国范围内做了大量的学术报告和科普,从技术的角度出发,介绍声纹如何解决不同应用场景中的问题。慢慢地,越来越多的人开始主动约郑方讲课,最多的时候几乎每个星期都有一场。从被动聆听到主动好奇,郑方的声音像一粒小石子,在语音和声纹领域激起了层层涟漪。
郑方笑称,当时的自己很像“布道者”,需要一遍遍不厌其烦地科普什么是声纹以及声纹识别技术的基础原理。其中的难度,一点都不亚于做科研。
不仅如此,郑方还致力于推动标准建设,为声纹技术的可靠性背书。“最初做标准建设的时候,卡在了立项这一步。监管部门没听过声纹技术,认为它尚不成熟。”郑方说,他通过介绍技术原理一点点说服相关人员,终于在银保监会、央行和其他50多家银行都同意的情况下,和中国建设银行一起将声纹技术确立为远程银行移动金融领域里的一项生物特征识别技术,对后来进一步开拓业务起到了关键的作用。
未来已来
凡是有人的地方,就有声音。随着声纹技术成熟度和市场认可度的逐渐提高,其可应用场景愈发清晰。郑方选择在一个极具挑战性的领域深耕——“我想利用声纹在金融领域做身份认证。尽管这对技术要求很高,因为凡是涉及财产的事,人们都很谨慎,但声纹识别优势明显,值得一试。”
2009年,郑方遇到了有类似需求的中国建设银行。当时,为了提高电话银行的安全性,建设银行个人金融部迫切想要解决用户与客服人员通话过程中的身份核验问题。
“用户打电话办理业务最多只有几分钟,声纹识别必须在短时间内完成。”郑方说,这是该技术在我国金融领域的首次试水,提高准确率的同时,还要缩短识别时间。然而,当时我国尚处于3G时代,带宽传输速率不够,导致声纹识别等待时间较长,“要实现较为准确的身份验证,至少需要约10秒的语音,用户体验并不好。”
背诵身份证号、回答预设问题、读取随机数字串……郑方回忆,团队成员把能想到的发声方法都测试了一圈,最终提出了一种名为“声密保”的解决方案:用户只需复述系统随机产生的6或8位数字,系统就能在3秒内完成识别。“别看仅有短短7秒的差别,背后经历了反反复复的算法分析和研究。”郑方特意在谈话间留了7秒空白,让记者体会等待的漫长感受,“缩短时间后,用户的满意度随之提升。”
随着4G和5G时代到来,声纹识别技术又逐渐被应用在了手机银行的身份识别中。近年来,郑方团队和中国建设银行联合推出了一项“一句话解决问题”的功能——当用户发起转账指令时,只需打开手机银行,对着话筒说:“给某人转账××元”,产品即可在自动识别和理解语音命令的同时进行声纹身份认证,为用户省去了输入密码的操作步骤。
短短几个字的指令背后,蕴含着多重新技术:要做语音识别,识别出说话的内容;要有身份核验,检测说话人的身份;还得有情感识别,判断用户的真实意图。“利用数据库分析,我们掌握了带有各类情感的声纹特征,包含恐惧、迟疑等情绪,识别到类似情况,系统也会自动驳回转账请求。”郑方生动地把这套算法描述为:“把繁杂交给算法,把便利留给用户”。如今,它已经在金融行业以“零事故”和“零投诉”通过了数亿次验证。
不只是金融,随着声纹识别日益成熟,该技术已被广泛应用在了电子政务、公共安全、智能安防等生活的各个领域。
声纹识别在医疗领域就有天然的优势:“中医讲究‘望闻问切’,其中‘切’是搭脉诊病的意思,可以通过捕捉脉搏声纹信号来实现。”郑方说,团队已经研发出了一套可以利用在医疗领域的声纹识别系统,通过监测脉搏音、肺音、呼吸音等实现无创判断病症,准确率超过95%。
更有意义的是声纹识别技术在信息无障碍领域的潜在应用。郑方解释,信息化时代,智能设备已经遍及生活的各个角落。然而有一些群体,比如老年人、视障人士等,对智能设备的接受速度慢,数字化的普及可能并没有方便他们的生活,反而会变成阻碍,“声纹识别技术能帮助他们绕过复杂的操作步骤,在明确身份的前提下直接下达指令,从而真正享受科技进步的成果。”
在“声纹+”领域探索耕耘了近20年,郑方见证了声纹技术商业化发展的脚步越来越快。但在变“快”的途中,他依然保留了对技术要求的理性判断。
有一次,合作企业一口气描述了几十个需求点、开出高价,希望郑方团队用声纹识别技术一一解决。然而,郑方并没有立马接单,反而当着客户的面,将需求分为了3类:眼下技术可以实现的;经过2至3年研发技术可以实现的;需要10年以上技术积累才能实现的。
“急不得。”郑方解释,声纹识别技术的研发,安全是前提也是底线。目前,市面上各类声纹识别技术成熟度不同,完全成熟的只有“用文本提示的方式进行说话人确认”这一种。“想要实现更简便的应用,还需要时间。”
随着越来越多领域的客户蜂拥而至,声纹识别终于站上了行业风口,成为人工智能领域新的“蓝海”。目前,郑方正带领团队致力于“声纹+”技术成果的创新融合,对此他充满信心。“曙光已现,声纹识别的未来,不容小觑。”
编辑:李华山