昔日,猎豹挪动董事长兼CEO傅盛在本身的抖音号上公布了一条视频。作为一名“科技悲观主义者”,傅盛和世界上的另一个“本身”停止了一场隔空对话。短短几十秒里,机器人“傅盛”的对答、绕口令样样通晓。即便是细心区分,你也很难确认哪一个才是真正的傅盛。 可以到达如此冷艳的效果,其实要归功于猎豹挪动旗下人工智能公司猎户星空研发的语音分解技术。只需听十段你的话,就可以克隆你的声响,听起来是不是很炫酷? ![]() 在人机交互的历程中,与用户体验感直接相关的,就是语音分解技术。这项技术是将文字转化为声响,可以复杂天文解为人类的嘴巴。各人在种种智能语音助手中听到的声响,都是由TTS来生成的。所以,让TTS分解的语音可以“以假乱真”,正是TTS范畴恒久以来不停探究的主题。 传统的TTS都是怎样做的? 在看猎户星空如何完成“以小取大”的效果时,我们可以先看看以往的TTS是如何完成的。 传统的TTS零碎通常包罗前端、后端两个模块。前端模块次要卖力对输出文本停止阐发,提取言语学信息,假如是中文还触及文本正则化、分词、词性预测、多音字消歧、韵律预测等,后端模块凭据前端的阐发后果,经过必然的要领生成语音波形。 ![]() 后端零碎的主流技术有两种,一种是基于统计参数建模的语音分解,或许叫做参数分解、参数法,优点是所需语料库少,几千句即可,训练与分解历程也都可以由步伐自动完成,但缺陷是语音质量不高,情感韵律平淡。 如今各人舆图导航软件中的听到的明星音,针对导航场景录制了几千句的语料,不但声响生涩感强,并且需求的本钱和周期较长,在其他范畴的声响效果不是很好。假如用户预期不苛刻,这样一种方法也未尝不成。 ![]() 另一种是基于单位挑选和波形拼接的语音分解,或许叫做拼接分解、拼接法,与参数法相反,优点是分解语音自然度很好,缺陷就是数据要求太大,至多万句语料才气满足商用需求,一些厂商会请声优为其智能产物录制语料库,前后工夫长达数月,耗费动辄几百万。 猎户星空:十段话分解人声 鱼和熊掌不成兼得,传统的TTS存在着或多或少的成绩。所以这个范畴的焦点,在于如何降低训练本钱,用更少的语料分解高质量的声响。 随着人工智能、深度学习的使用,TTS也迎来了新的厘革。2017年3月,Google 提出了一种新的端到端的语音分解零碎:Tacotron。它可将接纳的输出字符,输入成相应的原始频谱图,然后提供应Griffin-Lim重建算法生成语音。2017年底,Tacotron 2结合了WaveNet和Tacotron的优势,不需求任何语法知识即可直接输入文本对应的语音。 在已有的技术创新铺垫下,猎户星空TTS团队在Tactro沈阳网页设计n的根底上,训练了大语料库的语音库作为根底模型,目的发音人只需求录制10段话,经过Adapt自顺应模型,提取出目的发音人的特征,再经过World声码器,即可分解出目的发音人音色相反的语音。 所以,这项技术真正落地商用后,将为明星语音、本性化语音的分解带来严重打破,尤其是很大水平上增加明星音分解的本钱、延长使用研发的周期。 想象一下,当前你的语音助手中住着你喜欢的明星或心爱的人,每天都可以和TA互动聊天,好像TA就是你的公家小秘书,是不是有点小冲动呢? 除此之外,猎户星空已掌握麦克风阵列、语音叫醒、语音辨认、语义了解和语音分解等全套远场语音技术,语音交互更快更准,垂直范畴深度语义了解正确率96%,还首创了叫醒先人声回应。 猎户语音OS成为行业标配 在上文提到技术才能支撑之下,猎户星空打造了猎户tts——这个星球最暖和的AI声响。目前猎户语音OS技术曾经使用到了小米小爱同窗、美的小美AI音箱、喜马拉雅小雅音箱、猎豹挪动小豹AI音箱、华为智能AI音箱等多家互助同伴产物中,曾经成为行业标配。 ![]() 截至目前,搭载猎户语音分解技术的智能音箱产物在海内份额沈阳网站建设已超30%,每天都凌驾2000万次语音办事恳求,好比小米AI助理小爱同窗月活泼设备凌驾3000万台,累计叫醒超50亿次。 10月15日,中国人工智能财产生长联盟(AIIA)在人工智能开发者大会宣布了海内智能音箱智能化评级后果,包罗猎豹挪动、小米、喜马拉雅、百度、京东在内的五家主流厂商携其智能音箱产物到场了首批测试评价。猎户语音OS占据了获评产物前五强中的三席,支撑起了智能音箱市场的泰半壁江山。 结合本身人机交互的产物基因和猎户星空拥有的行业独一的全链条AI技术,猎豹挪动也在差别行业鞭策人工智能产物的场景化落地。将来,猎豹挪动与旗下猎户星空还会将自主研发的视觉、导航、语音、机械臂技术等焦点才能逐渐对外开放,与互助同伴一同,让机器人产物走进群众生活。 (责任编辑:admin) |