全民語料松－Mozilla邀你共創所有人都可以使用的語音資料庫 ~ 女生愛科技

Google I/O 在本週5/8眾所矚目登場，發表會上示範的語音助理預約沙龍時段的影片更是在社群媒體瘋傳。這項應用其中一個環節是語音辨識，而要達到精準的語音辨識技術，則需要豐富的語音資料庫。

Mozilla 基金會 Michael Henretty 近期發起的一個計畫 common voice，希望可以建立各種語言的語音資料庫，並且開放給所有人使用，目前各種語音資料正大量募集中，中文語音資料也在蒐集文句的階段，因此Mozilla非常歡迎大家貢獻自己的中文語句，協助打造語音資料庫。

5/10-11 common voice 活動網站

語音資料庫是用來比對辨識人類說話的內容的大量資料，目前常見的應用，例如：各種裝置中的語音辨識說話的內容，或是 Youtube 影片自動生成英文字幕是語音辨識技術應用。這些都需要有一個豐富的語音資料庫才能提供精準的辨識運作。

由於目前大部分由大公司開發的語音資料庫並沒有開放公眾使用，這項由Mozilla 基金會正在發起的專案現階段目標是大量蒐集語音資料，並建立資料庫，未來可供各種領域語音辨識使用。希望能夠大家參與，一起蒐集建造所有人都能夠應用的語音資料庫。

語音資料庫打造三步驟：
一、蒐集文字語句；
二、提供錄音資料；
三、協助判別聲音資料符合文字資料。

以下詳細說明各步驟：

一、蒐集文字語句
目前各種語言的語音資料都需要大家協助增建，而現階段中文語音資料蒐集目標：一個語言蒐集超過 1 萬個公眾授權的句字，以及300hrs～500hrs錄音。由於該資料庫希望讓所有人使用，必須考量到版權問題，又因各國法令不同，因此選擇句字應該從最嚴格的角度確認屬於公眾領域授權(Public Domain)。
簡單的說，上傳的語句可以是自己貢獻的創作，或是沒有任何版權問題句子。
另外，最好避免文言文或是過多詩意的句字，主要還是以日常對話為主。

下列是Common Voice網站上的語句蒐集建議：
1.建議語句唸起來大約 5～10秒，每一句大約 5～10字。
2.1～2字組成的句字也可以，但不希望所有的句子都是這麼短，但希望語句讀起來別超過 10秒。
3.希望可以有不同字彙組成的句字，越多越好，以利豐富字彙量，但也不用為了要兜上多種字彙想破頭。
4.如果你的語言是有特殊字符，如：â, ü, ß, š尤佳，這些可以幫助機器辨識不同聲音。
5.可以試著加入一些專有名詞，例如：姓氏、街道名稱、地名等。
6.使用數字也行，但請將數字寫出來，例如：二百五十，不要寫數字 250。

5/10-11 common voice 活動網站

上傳位置：https://voice-sprint.mozilla.community/upload/
透過這個網址上傳資料，目前中文語句大量募集中，歡迎大家一起貢獻中文語句。
若不想填寫資料，也可以考慮回覆PTT的這篇文章（[問卦] 有沒有語音資料都被大公司收走的八卦），樓主會將您的回覆內容作為貢獻語句。

二、提供錄音資料
蒐集完句字，接著你可以協助錄音。
由於不同年紀、聲調、口音等都會影響辨識，因此同一句會錄製不同人錄音。目前 common voice 網站僅有英文，待中文語句蒐集到一定程度將開放中文錄音。
英文語音錄製位址：https://voice.mozilla.org/en/record

5/10-11 common voice 活動網站

三、協助判別聲音資料符合文字資料
接著，有了語句文字於語音資料，還需要請大家協助確認語句與語音是否符合。
人工確認錄音內容：https://voice.mozilla.org/en
目前僅有英文，未來預計將開放中文語音資料判別功能。

5/10-11 common voice 活動網站

由於目前中文語音資料仍在蒐集文句的階段，因此Moziila非常歡迎大家貢獻自己的中文語句，協助打造中文語音資料庫。
期待在共用開放的語音資料建立完成後，有更多豐富中文語音的應用。
現在就加入打造計畫，讓未來的應用成果有我們努力的語音吧！

Menu

女生愛科技

我是女生我愛科技

2018年5月13日星期日

全民語料松－Mozilla邀你共創所有人都可以使用的語音資料庫

Pages

Popular Posts

Categories

Contributors

2018年5月13日 星期日

Pages

Popular Posts

Categories

Contributors

2018年5月13日星期日