AI 智能语音的供应链和玩家们
对于AI 智能语音的供应链,主要包括以下几个方面:
麦克风和音响
AI Engine
AI 芯片
智能语音应用
服务以及集成
AI框架以及存储
麦克风和音响,属于比较传统的序列,基本上以当前汽车原有供应商序列,但当前催生的比较火的是MEMS(微机电系统Micro-Electro Mechanical System)麦克风,他的优点有低能耗,小,且精度高等优点。
AI ASR 以及NLP(NLU,NLG,TTS) Engine ,是包括所有语音识别,自然语音处理和反馈机制的处理引擎,国际非常出名的是Nuance 下面拆分上市的Cerence,基本上所有的合资以及进口车型都采用其服务,当前需要进军国际车市的国产品牌都会采用其服务,主要是由于其历史悠久而且语言覆盖率是最广的,离线能力强。而且当初科大讯飞还代理过其语言识别,另外是houndify ,他和Cerence有一样的优点是强调汽车制造商可以有一个强大的语音助手而不放弃他们的用户体验或数据到亚马逊,苹果或谷歌。它目前提供基于云的人工智能服务。国内比较出名的当属科大讯飞,云知声,出门问问,思必驰,显然他们的优点是对中国语言的专注,当前也是基于云的强大应用。
AI Chip芯片和模块
对于芯片这边,芯片还是来自于传统的芯片模块巨头,例如NXP,Novida,Renesas,infineon等。国内在AI语言这块还是有不少玩家参与例如地平线,云知声,思必驰等。
AI 智能语音应用,AI 智能语音应用广泛,其实就是你交互的那个应用,我们这里划分成以下三个:
本地自然语音-基本上当车辆不联网时候能够使用的就是本地自然语音应用一般是cerence的优势,他需要把前面介绍的ASR,NLU,NLG,TTS都全部集成在本地以便无网络支持时候使用
网络自然语音-网络自然语音显然就是AI的自然语音云处理以及调用云库信息以实现更智能的响应,同时部分带有互联网应用生态。
第三方自然语音-就是独立的应用基本是移植自消费电子端的应用,他优势是有丰富海量的应用例如亚马逊的Alexa,苹果的SIRI,国内的天猫精灵,百度小度等,但目前他们都没有离线能力。
其实现在互联网汽车都可能同时含有以上三个应用,以满足不同的应用场景。
智能语音开发服务以及集成,其实智能语音开发和服务集成也拥有很大的市场,他是服务主机厂帮助其快速整合打通智能语音开发服务和集成到整车项目中,国际上有LG,Bosch,大陆,国内有镁佳科技,仙豆智能,出门问问(ASR NLU, cerence的TTS),同行者(云知声技术支持)。
云服务器以及AI 框架,随着智能语音控制的诞生,显然离线车载语音已经无法满足,AI引擎,库以及AI 训练的需求。以及各大主机厂都不愿意把数据库提供给第三方的AI引擎,更愿意请第三方整合不同的AI引擎采用不同的云以及AI框架,最后数据和库归自己所有的方式。所以云服务器以及AI框架是非常重要的一个组成部分,现在比较头部的玩家有亚马逊,微软,英伟达,国内有阿里云和百度云以及其框架。
当前主流以及新势力汽车厂家的车载语音
我相信最近上汽董事长陈虹对于自动驾驶华为的全包方案喊出”不做没有灵魂的躯壳“时候我们就会明白,聪明的主流厂商不会选择一家全包,而是采用融合,其中固然有几点,对于供应商的管理,对于核心数据的拥有。所以目前车载语音主流主机厂们采取的方案是融合供应商的ASR,NLU,DM,NLG,TTS,自己掌握核心数据。
奔驰MUBX:采用Nvidia 芯片以及AI 框架,同时该解决方案利用Nuance 的Dragon Drive的ASR 和SoundHound 的Houdify 的TTS,实现自然语言交互并支持更广泛的用例集。梅赛德斯司机还可以分别使用蓝牙或 Apple CarPlay 和 Android Auto 访问 Siri 或 Google Assistant。但是,这些解决方案无法让驾驶员控制汽车功能,例如气候和机舱设置。
宝马IDRIVE:
BMW与微软的Bot框架、Azure Bot服务和认知服务解决方案合作开发了多助手平台。他甚至可以通过嵌入式助手访问您的Microsoft Office应用程序。同时与Apple CarPlay、Android Auto和Alexa Auto选项共存的助手。
蔚来:
科大讯飞为提供了底层能力(应该是ASR,NLU),蔚来自有产品技术团队(抑或是镁佳科技)根据车辆使用场景进行了定制化开发,实现DM(对话管理)、NLG(对话生成,语料库设计)和TTS。
目前cerence有消息称蔚来采用其服务,可以肯定一点是蔚来要进入欧洲市场或者其他市场必定会采用他就像前文讲的cerence的优势语言覆盖广,当然也可能是为了供应商管理采用多方服务。
小鹏:
小鹏的语音技术是和思必驰合作开发的,小鹏首先搭建起框架,语音识别过程中具体的语音唤醒、语音识别采用了思必驰的技术,一些基本功能如打电话、查天气和语音合成等也是采用了思必驰的技术。而更为核心的语义解析、识别增强、语义抗噪、语义打断、自然语言处理等功能则是小鹏自主研发,当然以上语句为小鹏宣称的但是你了解,其实小鹏采用了Cerence 以及科大讯飞的服务,可能是不同车型采用不同的方案,也可能是整合各方优势,例如ASR采用科大讯飞,TTS 采用Cerence。
小鹏的语音助手的处理和决策在本地和云端两部分进行,唤醒、车控这些基本的功能都会在本地进行,更多需要计算能力的功能则会在云端进行,在没有联网的情况下,会进行网络重连,一旦重连成功,会首先恢复云端计算。如果实在无法恢复网络,导航和音乐等需要借助于云端的功能就无法实现,但对车辆的控制是可以实现。
上汽:
上汽的斑马采用了达摩院提供的前端算法、唤醒,思必驰提供语音识别能力,科大讯飞提供 TTS 音色。上汽的其他车系有采用Cerence的ASR以及其他服务因为需要国际化,所以需要各种语音的ASR.
总的来讲,主机厂智能语音主流趋势是整合各方供应商的语音引擎,建立自有语音平台数据库,支持第三方智能语音应用生态。