微軟語音辨識技術再突破!辨識能力超越專業聽打記錄員

微軟語音辨識技術再突破!辨識能力超越專業聽打記錄員 去年10月微軟才宣布,語音辨識技術運用業界常用的電話對話錄音測試集Switchboard,錯誤率成功降至5.9%,與人類的辨識水準相當,近日又再突破,錯誤率已經降至5.1%,並且正式超越專業的聽打紀錄人員  文/何維涓 | 2017-08-22發表 圖片來源: 微軟 繼去年微軟宣布,自行開發的語音辨識技術可以達到與人類相當的水準後,近日又宣布,該語音辨識技術的準確度,已經正式超越人類,並發布了詳細的技術報告。微軟語音和對話研究團隊在去年10月宣布,運用業界常用的電話錄音測試集Switchboard,微軟語音辨識技術錯誤率為5.9%,辨識能力可以達到人類的水準,近日則宣布,該語音辨識技術的錯誤率已經降至5.1%,正式超越專業的聽打記錄人員。語音辨識準確度超越人類,是微軟過去25年,一直想要達成的目標,微軟所採用的電話對話錄音測試集Switchboard,是語音研究社群採用了超過20年的測試語音辨識系統標準,開發語音辨識系統的過程,程式需要自動記錄不同人在不同議題的對話,像是體育或是政治等。與去年發布的正確率相比,微軟用一系列的工具來改善類神經網路聲學和語言模型,來改善此系統的錯誤率,像是,增加了一項結合卷積式網路和雙向的長短期記憶演算法的CNN-BLSTM,雙向的長短期記憶演算法是一種時間遞歸神經網絡(RNN),來改善聲學模型。此外,微軟還透過聲音的辨識單元Senone、Frame,以及單詞,結合多個聲學模型的預測,作為語音辨識的方法,並利用過去歷史對話紀錄,增強語音辨識的語言模型,來預測對話接下來會講的字詞,如此一來,可以模型更能夠有效地判斷對話的主題和內容。這項語音辨識是仰賴微軟自家的深度學習框架CNTK 2.1版,並利用微軟的雲端計算的基礎架構,特別是Azure GPUs,大幅地提升訓練模型的效率,也能快速地測試新設計的演算法。微軟表示,雖然系統辨識Switchboard的錯誤率已經達到只有5.1%,是一個非常大的突破,不過,未來還有許多可以繼續鑽研的問題,像是如何讓機器像人一樣,在吵雜的環境下,辨識出有腔調的語音、不同風格的說話方式和語言。微軟希望可以這項研究結果應用在微軟自家的產品和服務上,像是語音個人助理Cortana和認知服務等。未來,不只讓機器記錄語音內容,還要能理解對話的意思和意圖,從語音辨識到理解語意,是微軟接下來主要發展的語音科技目標。

更多訊息更多資料都在這裡喔!~蜂王漿~蝦紅素~智勝王~保健食品~力雪達~蚯蚓粉~蜂王乳~健康食品~芙婷寶~地龍粉~蝦青素~膠股力~青春元素~血栓溶解酵素~南極寶~磷蝦油~膠骨力~PPLS~地龍酵素

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *