无障碍说明

刘俊峰:车内语音交互是帮忙不是添乱 一定让驾驶更安全

4月25日,在2018北京国际车展现场,科大讯飞副总裁、智能汽车事业部总经理刘俊峰接受了腾讯汽车的专访。

他表示,语音是科大讯飞非常主力的产品和技术的方向,语音技术体系、方法以及数据迭代的能力为发展其他核心技术提供了经验和支撑。并且,他详细介绍了科大讯飞与整车厂合作的两种情况,一种是为车厂提供的一套汽车语音交互系统,一种是向厂商输出整机系统,其软件和服务在整个系统上面可以支持OTA,实现实时升级。

刘俊峰:车内语音交互是帮忙不是添乱 一定让驾驶更安全

本界车展腾讯汽车首次引入AI科技,以下为微信智聆联手翻译君所输出的访谈实录:

腾讯汽车:按照公众理解,咱们科大讯飞是一个搞语音的公司,那么按照咱们科大讯飞自己的眼光来看,我们是不是搞AI的公司,您能不能阐述公司的业务性质?

刘俊峰:首先语音是公司从创业之初一直到现在都在坚守的一个主平台,这样的一个基础平台,从几个人创业团队,从科大人机云实验室到创业科大讯飞,当时提出来一定要把中文语音技术由中国人做得最好。到2010年发布讯飞开放平台,它囊括了所有核心技术指标的第一名,全球第一名,语音一定是讯飞非常主力的产品和技术的方向。

其实,语音是人工智能一个分项。研究过程中,语音技术体系、方法以及数据迭代的能力都是为了发展其它一些核心技术,提供了经验和支撑。比方说我们语音和图像,他们两个技术正相交,融合正相交,这一块是相辅相成,我们用图像理解的方式,优化了语音的识别效果。然后讯飞大的发布会、论坛这样一些表现效果已经非常准确了,把口语词去掉,这是跟深度学习、数据迭代相辅相成。

基于篇章级的文字提取,把它从篇章级的手写体到篇章级的印刷体还可以做校正查重,这都是基于文字理解能力。机器阅读理解,你把一个篇章给机器系统去让他读,看完之后,把这篇文章拆成一个知识图谱,变成可问答可交互,这是基于图像理解,又是基于文字的。

语音是我们的看家本领,2010年之前,汽车装的语音系统基本上由外国公司来定义,到中国来,他们原来的一些惯性的接口,功能规格,造成了整个行业非常呆滞。我们用了很长时间,让整个市场开始从系统底层到应用层,到硬件配置,开始能够依据云技术的优势来布置。2010后,开始支持了QI的识别,自然语言理解,支持云和端同时混合式的语音识别架构,这套系统也是讯飞独有,而且真真正正达到实车实用。

我们还提供降噪模块,让车内的噪音得到控制。再好的语音识别系统,没有清晰的降噪系统是没有办法运行起来。真正在车上能够有一个非常自然、非常完整的交互系统上来看,它在每一个环节都是从语音的不同的角度来优化,包括TDS,这是我们切入汽车核心也是最优先的这样一个技术的切入方向。现在结合联网化用户实物场景、用户属性、用户交互行为,也包括大数据分析之后的推荐系统,这些都基于深度学习。这个涉及到您说人工智能,还有其它领域更多基础算法的一些融合。云一定是强标签,是中国人工智能创新中心的一个方向代表。面向汽车,要让人在车内能够有一个非常放松、舒服安全的一个交互环境,那就要不停来去迭代技术,让技术达到非常可靠。

腾讯汽车:科大讯飞做英语识别和汉语识别,从语言上看,汉语识别率高,跟语言特点有关?

刘俊峰:有关,但汉语更难做,中国方言加上口音,有很多种。英语只是口音,而中国是方言,每一个做起来都跟外语似的。如果说一方面要支持中国那么多种方言和口音,同时要保证说带方言口音这样的一些使用场景都能够被支持,而且识别率有一个非常高的状态,其实非常难。这也是源于在2010年之后科大讯飞的语音云,截止到现在,每一天有40多亿次的线上和线下的使用标准次数,而且激活移动终端的总数量超过17亿,每一天源源不断,从世界各地,中国各种口音区交互的口音数据会在讯飞超脑上做一些训练和学习,这也是讯飞语音识别率为什么一直保持着整个行业领先的原因。

腾讯汽车:不断迭代学习。

刘俊峰:不断迭代学习、上线优化过程之中。所以对于方言口音支持以及对于各种说法的支持,也有涉及到专业词汇,化学词汇、生物词汇、汽车词汇,这都是一个领域一个领域去来学,你得需要讯飞超脑吸收专业领域知识。

腾讯汽车:刚才还想问关于方言识别率问题,您已经回答了。

刘俊峰:讯飞云输入法已经有5亿的安装量,讯飞支持20几种口音,粤语、客家话、新疆维吾尔语等,还有翻译机,口音识别非常好。

腾讯汽车:我查到的数据是准确率是85%,现在数据是不是有更新?

刘俊峰:脱离场景之后没有任何意义,因为你要看周边噪音是什么?噪音环境是什么?然后你说话的口音是什么?你的语义专项是什么?你说生物词汇,有可能它就是不会。但你如果是用一套完整方式做这个模型,我们识别率,定义标准国家一级甲等发音人这样标准普通话甚至能够永远保持100%。车的挑战是在于车噪,车的风噪、胎噪各种噪音,这种噪音混杂进来,你能不能把人声调进来。听到这个噪音的声音还能判断汽车哪一个零部件出错误,这都是要去训练的。

腾讯汽车:相当于一个汽车诊断。可以这么理解,科大讯飞有一个云平台,托管在某一个公有云识别全世界各地发过来的语音信息。

刘俊峰:是一套公有云系统,我是自建的,全国现在四个地方,北京、广州、合肥、上海,部署了几万台服务器,支撑每一天讯飞语音用户,他们上传一段文字,回来合成声音,交互的次数达40多亿,上线第三方APP已经有40多万个,大众点评、美团、滴滴打车。内置语音云开发包,调用这个接口就有语音交互能力。

腾讯汽车:使用APP的客户并不知道嵌入科大讯飞。

刘俊峰:有一些合作,界面会弹出来科大讯飞。

腾讯汽车:咱们跟整车厂的合作,前端装了科大讯飞的软件,是否这一块的功能支持OTA升级呢?

刘俊峰:这有两种情况,一种是我们为车厂提供的这样一套汽车语音交互系统,我们叫飞助理,这样一套系统基于第三方的TL1,他们整机系统来集成的,它的硬件、它的操作系统、它的固件系统,这个地方如果没有打开可以支持升级的端口,我们跟系统是完全一致的。另外,现在我们已经跟很多的厂商,像奇瑞、江淮、长安、北汽我们开始输出整机系统,一方面我们的软件和服务在整个系统上面它可以支持OTA,我们已经迭代过非常多的次数,每一次都有新的功能上线。

腾讯汽车:交互之后再迭代?

刘俊峰:当然,每一天有新鲜服务上线,后端的语音云一旦有新的模型上来,会自然而然挂进来。

腾讯汽车:相当于实时升级。

刘俊峰:这已经实行地非常好了。

腾讯汽车:前提是整车这块支持在线升级?

刘俊峰:对,原来整机系统,信息娱乐整机系统是不是联网?联网之后它的系统和它的固件是不是支持它整个软件系统升级,也得看这套系统里面它支不支持单一应用去升级,这里面受限因素很多。

腾讯汽车:咱们现在发布了一个小飞鱼,关于无屏互动这一块,是否将来涉及到非关键器件的控制,比如说空调、音响这方面的控制。

刘俊峰:小飞鱼可能不会一下走到车身控制,毕竟是后装产品,这种后装产品用来面对这个车没什么智能化配置存量市场。

腾讯汽车:基于本地服务,也是在线?

刘俊峰:基于存量市场,在零售渠道2C这个市场上去销售。这种产品不适合代入更多车人控制,否则用户会觉得不太安全。但是我们从前装,比方说我们提供整机系统,它就可以连接车身的控制单元来完成像空调、车窗、左翼、后备厢跟车的整修说明,控制和信息服务在量产的产品上面都实现了。

腾讯汽车:必须跟整车厂紧密合作。咱们这个小飞鱼是一个后装载件?

刘俊峰:硬件,小飞鱼的定位和使命,希望用户在车上方便便捷地使用手机。

腾讯汽车:是硬设?

刘俊峰:通过蓝牙连接,能够使用手机应用、导航、听音乐、听资讯、查消息,这些不用打开手机,在行使状态下,不用找手机,不用设置手机里面的触摸屏的操作,规避安全风险,用一句话就行。包括导航的时候,调节目的地,选择这样一些属性种类,这个时候其实你在看屏幕的时候就已经代入。

腾讯汽车:触摸操作都是同样的体验,你的视线注意力转移到其它地方。

刘俊峰:对,我们也有一个理念,语音是进来帮忙不是进来添乱,语音交互一定让驾驶更安全。

腾讯汽车:是越来越辅助操控。

刘俊峰:一套语音系统不好用,或者对于网络强依赖,在联网的时候不能用,这个时候会给用户带来很多的困扰。

腾讯汽车:我听说科大讯飞做了一款泊车辅助的功能,这个泊车辅助和现在已有的泊车辅助有什么区别?

刘俊峰:应该属于自动驾驶小项,比驾驶员看周边看得更清楚,而且还能够把这里面的物品挑出来。我们研究汽车视觉比较多,泊车辅助大家在日常使用车辆时使用最频繁,一些新司机,他可以能够借助这样的一个视觉系统,挂上倒档,系统对它有提醒,你应该打几圈,或者打到什么位置,大概能够倒进去。基于360的环境,然后再基于视觉,基于这样一些人机交互端这样的一些新的应用的设计,马上就可以在量产车上应用。它能够减少主机厂在设备采购成本投入,而且效果要更好,视觉和车内的交互结合起来,能做很多新的场景。

腾讯汽车:我们使用泊车辅助,我自己的使用体验是受到很大限制,感觉用处不大。

刘俊峰:泊车辅助,停车线不是特别清晰,这个位置对于新手很难弄,你可以像做游戏一样在屏幕上画一个圈,或者拉一条线,这个车有自动泊车的功能就能挪过来,停车是一个非常高频强需求。

腾讯汽车:在汽车应用场景语音产品,将来有更高端自动驾驶级别的产品出现,我们有没有这方面跟他们结合的产品规划?

刘俊峰:我们自己聚焦汽车视觉,不管车内车外,这个地方用低成本方案能够实现一定的辅助,就是驾驶辅助这些功能,它上去之后,对于很多人来讲就已经非常实用了。我们在特殊的领域是积极投入,然后在通用的领域是不断迭代,基于机器视觉,基于汽车视觉慢慢把基本辅助功能完善,真正让人在车上的时候根据到比较安全,减少事故的发生,减少疲劳驾驶。先把这一块扎扎实实做好,然后再去思考下一个阶段我们该应时提供什么样的技术,技术都是为了场景使用,技术不代表它有实际的直接价值,它一定得转化出去。所以这个时候我们相对来说有点保守,但是我们每一步走得很扎实。

腾讯汽车:可以本地识别司机状态。

刘俊峰:如果知道您的长相或者我们原来有互换过照片,找到你的照片之后,把我的车交给你开,你上车之前,从手机上一扫脸,到车上一刷脸这个车你就可以开走了,甚至相关的支付之类的一套系统都可以通下来。

腾讯汽车:这是将来用于共享汽车的场景。

刘俊峰:也是身份认证,人就是车钥匙,车就是信用卡。

腾讯汽车:感谢您。

正文已结束,您可以按alt+4进行评论
责任编辑:tomasyang
收藏本文

相关搜索:

为你推荐

汽车视频

访问购车通小程序
      收起