2018年5月13日 星期日

全民語料松-Mozilla邀你共創所有人都可以使用的語音資料庫

Google I/O 在本週5/8眾所矚目登場,發表會上示範的語音助理預約沙龍時段的影片更是在社群媒體瘋傳。 這項應用其中一個環節是語音辨識,而要達到精準的語音辨識技術,則需要豐富的語音資料庫。

Mozilla 基金會 Michael Henretty 近期發起的一個計畫 common voice,希望可以建立各種語言的語音資料庫,並且開放給所有人使用,目前各種語音資料正大量募集中,中文語音資料也在蒐集文句的階段,因此Mozilla非常歡迎大家貢獻自己的中文語句,協助打造語音資料庫。


5/10-11 common voice 活動網站

語音資料庫是用來比對辨識人類說話的內容的大量資料,目前常見的應用,例如:各種裝置中的語音辨識說話的內容,或是 Youtube 影片自動生成英文字幕是語音辨識技術應用。這些都需要有一個豐富的語音資料庫才能提供精準的辨識運作。

由於目前大部分由大公司開發的語音資料庫並沒有開放公眾使用,這項由Mozilla 基金會正在發起的專案現階段目標是大量蒐集語音資料,並建立資料庫,未來可供各種領域語音辨識使用。希望能夠大家參與,一起蒐集建造所有人都能夠應用的語音資料庫。

語音資料庫打造三步驟:
一、蒐集文字語句;
二、提供錄音資料;
三、協助判別聲音資料符合文字資料。

以下詳細說明各步驟:

一、蒐集文字語句
目前各種語言的語音資料都需要大家協助增建,而現階段中文語音資料蒐集目標:一個語言蒐集超過 1 萬個公眾授權的句字,以及300hrs~500hrs錄音。由於該資料庫希望讓所有人使用,必須考量到版權問題,又因各國法令不同,因此選擇句字應該從最嚴格的角度確認屬於公眾領域授權(Public Domain)。
簡單的說,上傳的語句可以是自己貢獻的創作,或是沒有任何版權問題句子。
另外,最好避免文言文或是過多詩意的句字,主要還是以日常對話為主。

下列是Common Voice網站上的語句蒐集建議:
1.建議語句唸起來大約 5~10秒,每一句大約 5~10字。
2.1~2字組成的句字也可以,但不希望所有的句子都是這麼短,但希望語句讀起來別超過 10秒。
3.希望可以有不同字彙組成的句字,越多越好,以利豐富字彙量,但也不用為了要兜上多種字彙想破頭。
4.如果你的語言是有特殊字符,如:â, ü, ß, š尤佳,這些可以幫助機器辨識不同聲音。
5.可以試著加入一些專有名詞,例如:姓氏、街道名稱、地名等。
6.使用數字也行,但請將數字寫出來,例如:二百五十,不要寫數字 250。

5/10-11 common voice 活動網站

上傳位置:https://voice-sprint.mozilla.community/upload/
透過這個網址上傳資料,目前中文語句大量募集中,歡迎大家一起貢獻中文語句。
若不想填寫資料,也可以考慮回覆PTT的這篇文章([問卦] 有沒有語音資料都被大公司收走的八卦),樓主會將您的回覆內容作為貢獻語句。

二、提供錄音資料
蒐集完句字,接著你可以協助錄音。
由於不同年紀、聲調、口音等都會影響辨識,因此同一句會錄製不同人錄音。目前 common voice 網站僅有英文,待中文語句蒐集到一定程度將開放中文錄音。
英文語音錄製位址:https://voice.mozilla.org/en/record

5/10-11 common voice 活動網站

三、協助判別聲音資料符合文字資料
接著,有了語句文字於語音資料,還需要請大家協助確認語句與語音是否符合。
人工確認錄音內容:https://voice.mozilla.org/en
目前僅有英文,未來預計將開放中文語音資料判別功能。

5/10-11 common voice 活動網站

由於目前中文語音資料仍在蒐集文句的階段,因此Moziila非常歡迎大家貢獻自己的中文語句,協助打造中文語音資料庫。
期待在共用開放的語音資料建立完成後,有更多豐富中文語音的應用。
現在就加入打造計畫,讓未來的應用成果有我們努力的語音吧!