国内人工智能电视的方言识别,现在进行到什么地步了?
发布时间:2019-09-18 | 发布者: 东东工作室 | 浏览次数: 次最近,看了一篇报道,颇受感触。该报道讲的是少数几家印度科技公司一直在低调地开发方言识别系统,他们试图开发出原理简单、但有实际作用的产品,解决 10 亿方言用户的问题,让互联网成为边远城镇居民生活中不可或缺的一部分。
实际上,他们已经取得了一些成功的应用,如其中一家科技公司Gnani.ai已经开发出基于印度语、卡纳达语、泰卢固语、泰米尔语和古吉拉特语等方言的语音识别系统,这些系统同时也适用于那些会讲英语但有印度口音的用户。比如:如果你来自哈里亚纳邦的一个小村庄,想要了解自己的账户余额,你可以拨打热线电话或打开应用程序,用印地语进行询问,系统就会自动解答你的问题。
万维君在想,国内的语音识别技术也发展许多年了,尤其是前几年许多商家都推出过人工智能电视,主打语音操控电视,甚至还有可以识别方言的。就是不知道,现如今的人工智能电视,它们的方言识别技术发展到什么时候了?
一、受困于“识别准确率”
方言识别,其实是语音识别里的一部分内容。和语音识别技术一样,方言识别的衡量标准也是有几个技术指标的,它们分别是准确率、反应时间以及处理性能。
首先要说的是准确率,也就是语音连续识别准确率,目前来看,大都人工智能电视的宣传都称普通话的准确率能达到95%以上,方言其实也差不多。但是在实际使用中,用户体验并不是很如意,尤其是方言识别。下面几点可能是造成语音识别率不如意的原因之一:
第一,与模型的训练有关。大家都知道,识别率提升的关键是模型的训练。由于发表文章都是公开的,大家的算法差异不显著,主要是比谁的训练数据更多、更好。怎么训练?主要还是产品经理通过近乎穷举的方式,揣测用户针对某种意图会如何说话,从而列出大量的语句,词汇,顺序排列等,进而工程师根据可能出现的逻辑状况编程。按照这个逻辑来看,方言的训练投入比普通话投入成本更高,且不说厂商愿不愿意投入,许多方言并没有完整体系的语法、语义,训练难度非常高,且对训练方言的产品经理,本身的语言素养、方言水平等要求就非常高。
第二,受场合、情绪、身体状况、内容上下文的影响较大。每个人的说话方式都不一样,有的人咬字清晰、发音准确,而有的人则语速飞快、高低音不一、语序混乱,导致字或者词的语音特效发生改变。有时候就连人都很难分辨,更别提机器了。尤其是方言,本来就是当地某一部分人的日常用语,用于日常沟通可能没问题,但是使用人工智能电视的方言来分辨,也存在很高的误识率。
第三,方言的复杂、模糊性。汉语在会话中不同的词听起来是相似的,同样的,在方言中,也存在这一现象;另外,对于发音相同的字或者词,有时候基于语言模型不能确定究竟是哪个字,这些也会对语音识别造成困扰。
第四,环境噪声干扰。其实,这个是针对语音识别的普遍问题。在给人工智能电视下达命令的时候,如果现场有多个人声,有可能会对电视的正常识别造成干扰。不过随着算法的推进,现在这一点比两年前要好的多了。
二、能识别多种方言的电视还是非常少
上面分析了可能造成方言识别率不如意的几点原因,但人工智能电视的方言识别,方言种类的多少也是其发展的一大难点。
2017年被称为“人工智能元年”,各种各样搭载了人工智能语音技术的电视都纷纷冒了出来。万维家电网在那个时候也曾做过一个关于人工智能电视语音识别的横评,在横评的六款电视中,只有一款电视可以识别方言,而且方言种类才有广东话/四川话两种。按理来说,经过两年的发展,市场上的人工智能电视在语音识别/方言识别这一块,应该是百家齐鸣,呈现出欣欣向荣的景象才对。
然而,过了2017年,电视的宣传风向改变了,主要朝外观、大屏、8K等方面发展。虽然很多电视也都搭载有人工智能语音技术,但是其方言识别水平,并没有什么突破性的进展。虽然少部分电视可以做到识别5、6种方言,但是上面所提到的关于方言识别准确率,却没有很大的突破。
三、方言识别的出路在哪?
2019年,随着5G时代的到来,IOT成为了大热的话题。万维君认为,虽然现在的主流方向是发展智能家居,但是由于种种原因,到现在并没有统一的智能家居入口。电视作为家里客厅必不可少的家电,其成为智能家居的入口希望很大。当然,前提是厂商得解决了语音识别技术方面问题,而方言作为语音识别技术的重要组成部分,也是助力其成为入口的一大因素之一。
将人工智能电视卖出五环外,首先要解决的就是方言识别问题。当然,在如今电视机同质化严重的今天,谁如果能在这一方面有突破性的进展,也许他就有可能挣脱困境,逆流而上。
转载请标注:我爱技术网——国内人工智能电视的方言识别,现在进行到什么地步了?