撰寫:2020/5/1

發佈: 2020/12/05

Voice Control-01 VoxForge

2019與2020是忙碌的兩年，這兩年雖然有些語音辨識的學習，但由於時間的關係，都無法將學習心得在部落格中分享；年關將至才回首發現時間過得飛快，所以在此將一些在VoxForge學習心得在此與大家分享。

在此先介紹VoxForge：

VoxForge創建的初衷是為收集那些已標注用於免費和開源的說話辨識引擎（用在Linux／Unix，Windows以及Mac平臺上）的說話錄音。
以GPL協議開放所有提交的音訊檔，並將它們'compile'編譯成聲學模型，以提供給開源說話辨識引擎使用，這些說話辨識引擎有CMU Sphinx，ISIP，Julias（github）和HTK（注意：HTK是有分發限制）。

為何VoxForge需要建立一個資源平台開放給所有人免費的GPL協定的話語音訊?主要有以下原因，各位也可參考原來官網的說明http://www.voxforge.org/。

大部份被用於”開源” 說話辨識（或稱為說話轉成文字）引擎其中的聲學模型都不是開源而是閉源的。這些聲學模型並沒有允許你可以取得其中的說話音訊和抄本（即話語料庫）來用於製作聲學模型。
真正大量能夠用於製作品質優良的語音辨識引擎聲學模型的說話語料庫都不是免費的。你可以購買他用於建構品質優良的聲學模型，但是不允許FOSS專案分發這些說話語料庫，但是FOSS專案可以分發”用這些資料”製做出來的聲學模型。
這就是為什麼免費開源專案(Free and Open Source: 'FOSS')還被要求去購買大量有限版權的說話語料庫；雖然仿間有少量的免費開源'FOSS'說話語料庫可以用來製作聲學模型，但絕大部分的說話語料庫(特別是非常適合用來建構品質優良的聲學模型)必須購買且建構在有限的版權下。

VoxForge程序主要有兩種模型：

VoxForge程序會從頭創建與揚聲器相依的聲學模型並運行簡單的對話管理器，為了提高您在操作方法或教程中創建的聲學模型的識別率，您需要以更多的說話語音時間來訓練您的聲學模型。在此分享建立的說話語料庫的方法大約如下：

下載所需的軟體
資料準備
- Step 1 - Task Grammar語法工作化
- Step 2 - Pronunciation Dictionary發音字典
- Step 3 - 錄音資料
- Step 4 - 創建轉換檔
- Step 5 - 編碼(音訊)資料
創建單音素HMMs
- Step 6 - 創建初始靜音(Flat Start)的單音素
- Step 7 - 解決靜音模型
- Step 8 - 重調校訓練的資料
創建綁態(Tied-State)三音素
- Step 9 - 從單音素製作三音素
- Step 10 - 製作綁態三音素
執行Julius 直播

因此我在接下來的各篇會開始分享根據VoxForge程序所建立的話語音訊，並了解語音辨識領域。

後記

本文為個人學習的經驗，後續有所改進將再發文分享；本人因工作因素發文後並不會經常檢視讀者問題，對於沒法及時回覆問題敬請見諒!

若覺本文對讀者有所幫助，可回覆感想及你的分享!謝謝!

Voice Contro

Philip4G

Philip4G四眼仙機的部落格

Philip4G 發表在痞客邦留言(0) 人氣()

E-mail轉寄

Philip4G四眼仙機的部落格