ai語(yǔ)音功能是什么

2021/07/20 作者：短腿老頭

1075

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

硬件型號(hào)：天貓精靈 X5

系統(tǒng)版本：智能音箱系統(tǒng)

AI語(yǔ)音，即智能語(yǔ)音技術(shù)，以語(yǔ)音識(shí)別技術(shù)為開(kāi)端，是實(shí)現(xiàn)人機(jī)語(yǔ)言的通信，包括語(yǔ)音識(shí)別技術(shù)（ASR）和語(yǔ)音合成技術(shù)（TTS）。

（圖片來(lái)源于互聯(lián)網(wǎng)）

語(yǔ)音識(shí)別技術(shù)是指機(jī)器自動(dòng)將人的語(yǔ)音轉(zhuǎn)成文字的技術(shù)，又稱Automatic Speech Recognition，即ASR技術(shù)。

語(yǔ)音識(shí)別是近幾年來(lái)發(fā)展最快的技術(shù)之一，隨著數(shù)據(jù)處理技術(shù)的進(jìn)步以及深度學(xué)習(xí)技術(shù)的不斷發(fā)展，語(yǔ)音識(shí)別技術(shù)得到了質(zhì)的飛躍，已廣泛運(yùn)用于智能手機(jī)、語(yǔ)音智能交互等各個(gè)領(lǐng)域。

目前常用的語(yǔ)音識(shí)別技術(shù)方法主要有四種：（1）基于語(yǔ)言學(xué)和聲學(xué)的方法（2）隨機(jī)模型法（3）利用人工神經(jīng)網(wǎng)絡(luò)的方法（4）概率語(yǔ)法分析，其中最主流的方法是隨機(jī)模型法，如動(dòng)態(tài)時(shí)間規(guī)整（DTW），隱馬爾科夫模型（HMM）理論和矢量量化（VQ ）技術(shù)等。

（圖片來(lái)源于互聯(lián)網(wǎng)）

語(yǔ)音合成（Text-To-Speech）是計(jì)算機(jī)將機(jī)器內(nèi)部的文字信息轉(zhuǎn)變?yōu)榭陕?tīng)懂且流利的語(yǔ)言輸出的技術(shù)。簡(jiǎn)單來(lái)說(shuō)，語(yǔ)音識(shí)別技術(shù)是人對(duì)機(jī)器的輸入，而語(yǔ)音合成則是機(jī)器的輸出過(guò)程。

在人工智能領(lǐng)域，AI語(yǔ)音是最重要的入口之一。智能音箱并不是唯一的語(yǔ)音入口，語(yǔ)音交互能力正逐步向物聯(lián)網(wǎng)終端全面擴(kuò)散。

語(yǔ)音交互作為人與機(jī)器進(jìn)行交互方式的第三代，相比于前兩代（第一代通過(guò)按鍵來(lái)實(shí)現(xiàn)交互，第二代通過(guò)觸摸屏來(lái)交互）將會(huì)更加的智能與便利。未來(lái)在智能家居領(lǐng)域，AI語(yǔ)音被視為最適用的人機(jī)交互入口。

遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別應(yīng)用方興未艾，行業(yè)龍頭搶占先機(jī)前景廣闊。語(yǔ)音技術(shù)的應(yīng)用主要分為近場(chǎng)識(shí)別以及遠(yuǎn)場(chǎng)識(shí)別。

目前主流所運(yùn)用的語(yǔ)音技術(shù)主要是近場(chǎng)識(shí)別技術(shù)如手機(jī)智能語(yǔ)音等，技術(shù)相對(duì)成熟。遠(yuǎn)場(chǎng)識(shí)別由于受到距離、噪音等因素的影響，是現(xiàn)階段語(yǔ)音技術(shù)的挑戰(zhàn)方向，包括智能家居、智能車載語(yǔ)音、智能音箱等。

（圖片來(lái)源于互聯(lián)網(wǎng)）

版權(quán)聲明：網(wǎng)站轉(zhuǎn)載的所有的文章、圖片、音頻視頻文件等資料的版權(quán)歸版權(quán)所有人所有。如果本網(wǎng)所選內(nèi)容的文章作者及編輯認(rèn)為其作品不宜公開(kāi)自由傳播，或不應(yīng)無(wú)償使用，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）