行業(yè)新聞|2023-08-21|YIPPEE
語(yǔ)音合成是通過(guò)機械和電子方法產(chǎn)生人工語(yǔ)音的技術(shù)。一般來(lái)說(shuō),語(yǔ)音合成就是讓機器模仿人類(lèi)說(shuō)話(huà)。也就是說(shuō),輸入一段文字,后輸出一段聲音。
語(yǔ)音合成是一個(gè)將文本轉化為語(yǔ)音的過(guò)程,類(lèi)似于人類(lèi)的嘴巴。目前,語(yǔ)音合成技術(shù)主要應用于地圖導航、語(yǔ)音助手、教育、娛樂(lè )等軟件應用,以及智能揚聲器、家用電器、機器人等硬件設備。
AI智能語(yǔ)音模塊語(yǔ)音合成系統通常包括兩個(gè)模塊:前端和后端。前端模塊主要分析輸入文本,提取后端模塊所需的語(yǔ)言信息。對于中文合成系統,前端模塊一般包括文本正則化、分詞、詞性預測、多音字消歧、節奏預測等子模塊。根據前端分析結果,后端模塊通過(guò)一定的方法生成語(yǔ)音波形。后端模塊一般分為兩條技術(shù)主線(xiàn):基于統計參數建模的語(yǔ)音合成,基于單元選擇和波形拼接的語(yǔ)音合成。
現階段的語(yǔ)音合成系統可以分為三種類(lèi)型:1。參數語(yǔ)音合成系統。2.拼接語(yǔ)音合成系統。3.基于波形的統計合成系統。其中,參數語(yǔ)音合成系統和拼接語(yǔ)音合成系統是目前各大公司的主流在線(xiàn)合成系統,基于波形的統計合成系統的方法還處于研究階段,是目前研究的熱點(diǎn)。
1、參數語(yǔ)音合成系統的特點(diǎn)是,在語(yǔ)音分析階段,語(yǔ)音波形需要通過(guò)聲碼器轉換為頻譜、基頻、時(shí)長(cháng)等語(yǔ)音或節奏參數。在建模階段建模語(yǔ)音參數,在語(yǔ)音合成階段,時(shí)域語(yǔ)音信號由聲碼器預測的語(yǔ)音參數還原。參數語(yǔ)音合成系統的優(yōu)點(diǎn)是模型尺寸小,模型參數調整方便,合成語(yǔ)音相對穩定。
2、拼接語(yǔ)音合成系統的特點(diǎn)是將原始錄音剪切成基本單元存儲,而不是參數化原始錄音。在合成過(guò)程中,通過(guò)一些算法或模型計算每個(gè)單元的目標成本和連接成本,后通過(guò)Viterbi算法和PSOLA或WSOLA等信號處理方法“拼接”合成語(yǔ)音。因此,拼接語(yǔ)音合成的優(yōu)點(diǎn)是音質(zhì)好,不受語(yǔ)音單元參數化音質(zhì)的損失。但是,在數據庫小的情況下,合成語(yǔ)音韻需要穩定,因為有時(shí)候選擇不到合適的語(yǔ)音單元。
3、WaveNet波形統計語(yǔ)音合成的主要單元是卷積神經(jīng)網(wǎng)絡(luò )。該方法的特點(diǎn)是使用神經(jīng)網(wǎng)絡(luò )直接預測合成語(yǔ)音波形的每個(gè)采樣點(diǎn),而不是參數化語(yǔ)音信號。優(yōu)點(diǎn)是音質(zhì)比參數合成系統好,略差于拼接合成,但比拼接合成系統更穩定。缺點(diǎn)是合成時(shí)間慢,因為需要預測每個(gè)采樣點(diǎn)。