近年来,在声音这条赛道上,越来越多的大小玩家正竞相角逐。自2016年第一代Airpods面世后,蓝牙降噪耳机便开始收获大量关注,华为、小米、OV等手机厂商纷纷下场,不少声学实验室也在加快成果转化,资本也将目光投向这一领域。
紫建电子IPO在即,中科蓝讯科创板过会。而不久前,智能声音前端处理技术与产品供应商深圳黄鹂智能科技有限公司(简称“黄鹂智声”)也获得千万级人民币天使轮投资。据悉,这笔融资将主要用于核心技术和C端产品的研发,以面向更多应用场景,扩大市场推广。
这家成立于2019年的人工智能技术企业,依托清华团队20余年的研究积累,将根扎在深圳这片沃土,两年多的时间里加速成长和奔跑,先后获得全国集成电路创新大赛、国际智能语音大赛、未来网络科技创新大赛以及科技部认定的国家级“黑科技”等诸多奖项。
在声音赛道上具备独特的“专精特新”气质,这家企业如何实现持续创新?如何打开更多的应用场景?黄鹂智声CEO刘志在接受南都记者专访时表示:“人类四分之一以上的信息获取直接来自于声音,这就决定了声音相关的领域是一个大产业,但另一方面,因其技术门槛高,导致今天声音的应用更多还停留在我们所熟知的通话和语音识别上,创新应用比较少。”
而刘志和团队想要做的事,正是以降噪技术解锁声音价值产业链,持续地创新和开拓。
5G、人工智能、物联网的发展
未来声音产业链孕育万亿级市场
南都:当初为什么会选择声音这条赛道?
刘志:我毕业于清华大学电子工程系嵌入式语音实验室,在学期间就在从事声音领域的研究工作。毕业后不久就与几位师兄弟一起,开始了声音领域的技术创业工作。先后开发了苹果手机的首款语音拨号软件voicedialer;用于大学英语四六级考试的口语测评系统等,用户数量超过5000万人。在做语音识别、口语测评等技术研发的过程中,团队认识到噪声对声音信息的严重影响,因此下定决心要解决噪声干扰的问题,历经十余年的探索,终于走出了一条行之有效的路径。
南都:那目前贵公司的声音解决方案拓展到了哪些领域?有没有一些创新的应用拓展?
刘志:我公司的智能前端声音处理解决方案最先是应用在专用领域,让微弱的通话声音在飞机发动机旁也清晰可闻。随着民用市场的推进,今天,在办公、教育、通信、客服等领域,黄鹂智声的方案和产品都有广泛的应用,保障各类复杂噪音环境下通话、录音、直播以及人机交互的声音采集效果。
我们的方案集成进合作伙伴的政务一体机中,让老百姓在家门口的超市就可以通过语音查询云端政务大厅的各项服务,解决了噪声环境下语音识别不准确的问题,类似这样的创新应用还有很多。目前,我们的方案正在集成进包括智能头盔、AR/VR眼镜等可穿戴设备,以及桌面麦克风、室内吊麦等产品中,未来车载中的智能语音系统也是我们支持的对象。
南都:随着5G和AI和发展,以及物联网时代到来,声音作为一种重要的交互方式,声音的智能化处理有着怎样的想象空间?
刘志:随着5G、人工智能、物联网的发展,声音的价值不断提升,应用越来越多,我们可以从应用方式、应用场景和应用行业三个维度来看这个问题。
首先声音有三个主要的应用方式,一是通信,二是人机交互(如语音识别、口语测评等),三是物与物交互(如通过声音自动判断设备状态、环境感知等);在应用场景上,可分为个人移动场景(可穿戴设备),车载移动场景(智能车联网),固定空间场景(智能家居、智能办公室等);从应用行业来看,可以说各行各业都有着声音发挥价值的空间。这三个维度构成一个立体的空间,空间中的每一个交汇点都可能带来一项创新应用,因此声音的智能化处理有着太大的想象空间,我个人认为未来声音的产业链是万亿级的大市场。
但是今天,噪声干扰和器件限制,极大降低了声音采集的精度和范围,严重制约着通信质量和声音智能处理效果,嘈杂环境会大大降低移动通信的质量和体验,同时噪声会降低目标语音信息的获取效率,导致可懂度下降。这些问题导致声音的价值还远远没有发挥出来。这正是黄鹂智声的价值所在,我们要做的就是尽可能消除噪声的影响,让声音采集得更加清晰,以此来保证声音通信的质量和后端声音智能化处理的效果,从而实现我们企业的使命:用声音智能改善人类生活与工作品质。
声音技术门槛高、创新应用少
国内在通话降噪等多个领域处于领先水平
南都:越来越多的人使用蓝牙耳机,尤其是一些好的蓝牙降噪耳机非常受欢迎,像苹果、华为等手机厂商都在自己做,和手机厂商比起来,黄鹂智声的发展路径有什么不一样?竞争优势在哪里?
刘志:耳机最早是作为听音设备出现的,历经近百年的发展,各大厂商都将主要的技术提升集中在听音效果上,BOSE、SONY自不必说,苹果、华为等手机厂商也是如此,因此,听音降噪正逐渐成为蓝牙耳机的标配,目的是在欣赏音乐时,让耳机使用者自己听不到外界的噪声。
我们观察到,今天的耳机产品,除了听音之外,通话的应用场景越来越多,已经成为耳机的第二大应用,因此,黄鹂智声在耳机产品上将技术优势集中在通话降噪领域,其目的是在通话时,让通话的对方听不到耳机使用者周边的噪声。
听音降噪技术今天已经普及,而通话降噪技术因其复杂度更高,环境适应性要求更广,面临的技术挑战也更多。黄鹂智声的竞争优势首先就体现在其通话降噪技术的先进性和用户的效果体验上。
南都:声音这个领域,感觉很细分,它的技术门槛高吗?国内会面临卡脖子问题吗?国内的声音处理技术在国际上处于什么水平或地位?
刘志:这个问题很有代表性。人类四分之一以上的信息获取直接来自于声音,这就决定了声音相关的领域是一个大产业,但另一方面,因其技术门槛高,导致今天声音的应用更多还停留在我们已经熟知的通话和语音识别上,创新应用比较少,所以感觉上很细分。
声音技术难的一个重要原因就在于噪声严重影响声音信息的获取,声音相比图像,在同样信息量下的数据更少,缺少冗余数据来恢复信息,因此更容易受到噪声干扰。声音领域的技术范畴太广,其中部分领域可能会面临卡脖子的问题,但我们有信心的是,在通话降噪、中文语音识别等多个领域,国内的技术在国际上都是处于领先水平。
南都:最后一个问题,黄鹂智声的研发团队来自清华,但是成果落地转化在深圳,对于你们来说,选择来深圳创业的背后,都有哪些考量?
刘志:我们是一个技术背景的团队,但确定了要做产品后我们第一个想到的就是深圳,深圳地区有着全国乃至全世界最强大的音频产品产业链,上下游资源以及人才资源非常丰富,创新创业的文化和氛围浓烈,事实证明,我们的选择非常正确。
采写:南都记者 程洋