电话 010-62986600
新闻中心

巧用活用OSYNO6188语音芯片,实现高质量的语音合成效果(续)

行业新闻发布时间:2009-07-15

自从北京宇音天下科技有限公司于2003年8月份推出中文语音合成芯片(专业术语为中文TTS芯片OSYNO6188)以来,在国内许多电子产品领域,得到十分成功的应用,具体可参见
中文语音合成芯片OSYNO6188

比较鲜明特点主要有:
1、采用国家一级播音员的声音,合成音效十分清亮,在嘈杂环境下具有很好的穿透力,使得用此芯片设计出来的电子产品,其提醒、可懂的效果十分突出。 
2、对应用环境温度具有十分广泛的适应性,可以适应-40℃-85℃的宽温范围。特别是对于手机、车载导航、车载电子、智能MP3等需要在户外使用的、或其它室外监控/追踪提醒等电子产品,具有良好的环境适应性。 
3、在语音合成的过程中,可以加入背景音乐,特效音等,使得用户听起来更加柔和、悦耳,可选性多,富有有人情味。 
4、对于人名的合成效果,具有很高的准确率,对于各种产品所需发音文本,具有准确的合成发音能力。 
5、性/价比十分高,目前是少数几家有能力、可以研发中文TTS合成芯片的公司之一,价格在同类IC中最具有竞争力。 除北京宇音天下公司的OSYNO6188,国内研发出来的同类芯片,由于受限于其资源的制约,在处理速度、有限的存储空间等方面均有不善如意的地方,比如对于多音字、数字串、各类量化符号、特殊符号、合成自然度等方面的处理与真人发生还有着一定的差距。

其实,即使是桌面型的语音合成软件,亦不可能很好的处理这些问题,其次,更高端的语音合成芯片,相对于中低端的语音合成芯片在合成方面的表现,由于存储的字典更大,处理速度更快,相对合成效果自然表现更佳。 

语音合成中最难的是多音字的识别,其解决方案,与中文语句的自然语言理解相关联,需要对中文文本进行分词断句,对分出来的词,还需要对词性进行分析,比如:“数”的念法: 数 
shǔ 动词 数落 数不清 数得着 
shù 名 词 数据 数量 数额 
shuò 副 词 数见不鲜 

其次,许多分出来的词,不仅需要分析词性,还需要分析词义,才能够确定正确的念法: 
降 jiàng 动 词 下降、降雨(降:下落之意) 
xiáng 动 词 投降、降龙伏虎(降:归顺,使驯服之意) 

众所周知自然语言理解,是目前学术界较难处理的一个学科分支,目前全世界上亦没有较好的解决办法,因此作为芯片级的、中文语音合成同类解决方案,都只能针对不同的行业应用,在不同的性能指标上按重要性、必要性方面做些取舍,以最大限度的保证行业解决方案,得到成功的实施。 

其实,对于车载导航、车载调度、考勤机、智能电话、智能手机等,需要应用中文语音合成功能增强其功能特色的电子产品,以下我们统称为语音终端或语音终端产品,由于这些语音终端均是语音合成应用功能相对受限的电子产品,这些产品中对于常用的、待合成的文本,具有如下的常见特点: 
1. 是系统将内置的一些常用文本字段,与系统内部生成的距离、时间、温度等量化单位,进行整合,或直接利用内置的文本字段进行简单的组合,生成相应的语音提示文本。如单机版的GPS车载导航产品,其待合成的文本,一般就是如此组合产生。这是我们后文要重点讨论的问题一; 
2. 是由系统运营后台,通过人工进行输入,生成文本字段,通过无线/有线远程通信的手段,发给异地的网络运营终端,最后由运营终端,进行中文文本语音合成,将提示语音合成出来,这就是我们后文要重点讨论的问题二。 

对于这两种情况,其实可以通过软件的手段,在运用语音芯片6188的合成前期,采用如下手段,予以有效的克服或解决,表现在:对于情况一产生的待合成文本: 
1、 由于主要是一些系统内置的、固定格式的常用文本字段、和常用词组,如“前方到站是”、“前方”、“向右拐”、“走辅路”“前方行人请注意”等。这些常用文本,可以通过人工稍微检查一下,就可以将语音芯片6188不能处理的多音字挑出来标注好,然后以同音字代替,或直接以6188特有的拼音标注进行替换; 
2、 其次,对于系统内部生成的“500m”或“500米”等特殊距离单位,或者时间、速度、温度等量化单位,系统可以在文本语音合成前期,亦很容易处理成:“伍百米”、“三十度”、“三十三点五度”、“六十六公里时速”等中文文本,最后这些由系统根据量化单位,自动生成的文本,和前后文本字段组合成待合成的、完整的文本,通过串口送达6188进行语音合成即可。 
3、 如果语音终端需要人工直接编辑地名、人名等文本,则可以让语音终端在编辑后,先进行语音合成试听,如果试听错误,则提醒用户正确编辑某个汉字的发音,或者可以要求第三方的地名词典标注清楚多音字的发音;须要注意的是,6188对人名、地名中的多音字发音处理的就相当出色,很少需要人工操作。

对于情况二产生的待合成文本: 
1、 例如车载调度系统,或者考勤机信息发布系统,可以在后台编辑文本的时候,当人工输入一个汉字时,如果这个汉字是多音字,则调度系统中的文本编辑器,自动生成由下划线、自动标绿等提示符号,较醒目的提示文本编辑人员,需要对这个汉字进行正确发音标注。 
2、 为了发现人工编辑输入的汉字是多音字,需要在系统编辑软件中装载一个多音字字典,比如《现代汉字常见多音字集锦》,或人教版的《常见多音字集锦》,每当人工输入一个汉字后,就自动判别一个。如果是,就自动标注出来,由人工进行最后校对,校对后的文本再由人工确认,最后通过通信手段,发送到语音终端。重字由编辑软件自动标注,用鼠标放上去,则自动弹出提示框。 
3、 如果确实需要对语音终端,如车载终端,通过智能无线模块收发到的短信作语音合成,在经过前述人工分析过程后,如果仍然有多音词的发音问题,那也是很少见的现象了。 毕竟所有的业界都认可,完全智能的中文TTS处理系统与自然语言处理相关,不可能百分百解决全部的多音字问题,不管是哪家公司研发出来的中文语音合成系统,在不同的多音字方面,有不同的处理效果,有的在这方面处理效果好一些,另一家公司,则在其它方面处理效果更好一些。 

综上所述,需要中文语音合成芯片级解决方案的研发型企业,完全可以利用6188性/价比高,价格十分具有竞争力的特点,巧用活用中文语音芯片6188,在对文本进行合成前,对行业应用中一些常用文本中的多音字,作一些简单的人工交互处理,以不同的同音异形字代替,或直接标注为拼音字符,然后进行文本合成,即可以实现正确的语音合成效果。

所以巧用活用6188就可以实现--即有效降低产品成本,又可以高质量地提升客观上的语音合成效果,同时更具有其它竞争产品所没有的环境适应能力、提醒效果,以提升最终顾客的产品满意度;真正实现使自己的产品在市场上同类产品,具有最好的竞争能力。