目前市场上出现一批打着人工智能旗号的“语音识别”电视,其实,这种语音识别电视机只能算人工智能电视的“雏形”,算是1.0时代的产品。真正能够让电视获得较高智商的是具有“语义分析”能力,才是人工智能电视行业迈入2.0时代的前提条件。
语音与语义识别技术 差之毫厘谬以千里
那么,究竟语音识别与语音识别有何区别呢?举个更通俗的例子来说明“语音识别”与“语义分析”在人工智能技术层次上的不同:用户对着电视机说一部具体的电影或者电视剧的全名,电视机会对用户语音进行识别,自动搜索片名、播放,这就是“语音识别”;但是,如果用户对电视机说“一部爱情片”、“热播的动作片”、“香港导演的电影”、“好莱坞大片”等模糊语句,电视机根据用户的性别、爱好、平时的点播倾向等特征来进行智能的分析,并进行精准的推荐,这是“语义分析”,在智商上比“语音识别”高了好几个层次,领先一大步。
为了更直观的感受语义识别和语音识别的区别,我们可以形象的用人体器官表达出来:语音技术相当于人的嘴巴和耳朵,负责表达和获取,而语义技术相当于人的大脑,负责思考和信息处理。下面举一个常见的产品形态让我们来感受一下:
例如车载系统,人车交互过程的实现,一方面车辆获取人的语音又通过语音播报路况这都属于语音识别的范畴,而对于所获取到的语音如何理解,路径如何规划则是另一套系统。
就像你的耳朵非常好使,并不代表你的脑袋聪明。在识别同样的语音后,不同的机器可能会作出不同的反应,这就是机器对于语意理解的区别。就像说一个同学能力并不是那么强,并不能代表他的嘴巴和听力有问题,只能说他的处理能力没有那么强,而这往往取决于他的大脑。
当智能家居发展到一定程度,我们坐在电视机前就可以语音遥控想看什么节目。而交互的精准性对语义理解的能力要求很高。假如当您要看英剧《神探夏洛克》,经常会被人叫成《神探夏洛特》,因为夏洛特更顺嘴或者更普遍。这时候如果不做语义理解,可能你搜出来的名字就是《夏洛特烦恼》,因为它频度也很高。
语义识别的行业专家亓超对以上现象向我们这样解释:当你没有办法记住片子完整名字时,语义理解需要给你做纠正,做更合适处理。其实用户在看电视产生很大需求,当用户不知道要看什么,需要机器帮忙做推荐和引导,而这个过程中精准化程度、和人性化程度取决于智能化程度。
亓超将语义理解生动的比作做菜的过程。第一步买菜相当于数据获取部分,第二部洗菜就是数据清理过程,第三部烹饪就是机器学习的过程,要有各种学习工具,就像做饭要有各种厨具,各种调料;机器学习还要有学习能力,就像万事俱备后,有一门烹饪好手艺一样。第四部人工智能产品落地就像最后菜品出来装盘一样。每个环节都需要突破,需要打磨。 |