2024 年 12 月至 2025 年 3 月,MozTW 社群與台灣維基媒體協會協力,正在推動六個台灣原住民族語的錄音補貼,以建構第一套自由開放的族語語音資料庫,促進本土語言的語音科技發展。

Common Voice 是什麼?

「Common Voice」開源語音語料收集專案( https://commonvoice.mozilla.org ),是開發 Firefox(火狐瀏覽器)的非營利組織 Mozilla 基金會(Mozilla Foundation)發起的專案。

這個專案的目的是收集世界上各種語言的錄音,並以 CC0 公眾授權(不限制商業用途)免費釋出。本專案自 2017 年開始至今,經由各地社群志工的協力,八年的時間,已經收錄超過 130 種語言。

Mozilla 發起 Common Voice 計劃的理想,是世界上所有的人,不論使用哪一種母語,都能享有語音輸入、語音合成、語音助理(如 Hey Siri 或 OK Google)等語音科技。

目前 Mozilla 自己未進行相關的 ASR 等語音模型開發。本專案僅處理收集、整理與開放資料等流程,並公開資料集,予以世界各地的科技廠商及研究者自由下載、免費使用。

Common Voice 在台灣的歷程

Common Voice 在台灣起始自 2017 年的 Voice Jam 活動。

Common Voice 網站開放之後,MozTW 志工(及廣大的自由軟體社群參與者,如 g0v 成員)即刻於 2018 年開始著手國語(台灣華語)的開設與推廣事宜,至今已累積 125 個小時以上的國語語料。2020 年我們協助 Mozilla 香港社群上線香港廣東話。於 2022 年,我們推動台語錄音上線,至今也累積了 23 小時的免費開放語料

2024 年末,我們有幸爭取到原廠對於小型語言的補助,開始進行此原住民族語的語音錄音專案。

關於 Common Voice 多年來在台灣的進展,推薦閱讀此篇最新的英文專訪,有提到台灣志工參與的脈絡:Mozilla is now offering free AI voice training data in 180 languages - Fast Company

錄音結果公布在哪?

錄音結果以 CC0 公眾領域授權釋出,Mozilla 不對其作出任何版權限制,任何人跟任何公司都可以自由的下載與使用於自己的研究、開發專案上。

現在你就可以在這邊下載到國語、台語及其他一百三十種語言的錄音檔: https://commonvoice.mozilla.org/datasets

網站上的錄音定期每三個月釋出一次。本次族語錄音的成果,預期將會於 2025 年四月公布於上述頁面。

錄音方式

以下為各語言的錄音頁面:

註冊與操作方式,請參考《族語補助專案與錄音網站操作手冊

補助費用

本專案經 Mozilla 贊助台灣維基媒體協會進行原住民族語錄音,以建制開放自由的族語語音資料庫。

補助範圍包含「排灣、賽德克、撒奇萊雅、泰雅(含汶水、萬大)、魯凱(含多納、萬山、茂林)、布農」等六大語群,及其下各方言語類。

每個語群我們將提供 50,000 元預算,補助 20 人次錄製 30 分鐘。另設有兩階段的達標獎勵金每個語言各 14,000 元,及完整六個語言全數完成的達標獎勵金合計 130,000 元。達標時限將在 1/31 及 3/15 結算各語言的錄音與驗證長度,請大家多多協助分享宣傳。

如何申請

如您想進一步了解本專案目標與補助細節,歡迎加入以下 Line 群組聯繫:https://line.me/ti/g/DkTvRAy7ba

如果你需要申請錄音補助經費,請填寫此一線上表格:https://forms.gle/2jsESFM2bZvufqE39

common voice in taiwan 群組

你們是誰?

MozTW, Mozilla 台灣社群

Mozilla 台灣社群( https://moztw.org )是一群在台灣的 Firefox 志工與支持者。我們自 2002 年開始,持續進行 Firefox 等自由軟體跟開放文化相關的翻譯跟推廣活動。

MozTW 社群另在台北經營一個實體的社群活動空間 「摩茲工寮 MozTW Space」 hackerspace,每週五晚上都有 Mozilla 與維基百科志工的定期聚會 MozTW Lab,歡迎隨時來訪。

台灣維基媒體協會

台灣維基媒體協會(Wikimedia Taiwan),是台灣的維基媒體分會,包括維基百科在內的各項計畫在台灣的推廣組織。過去數年持續協助政大原民中心,推動原住民族語維基百科,如撒奇萊雅語維基百科(Sakizaya Wikipitiya)、泰雅語維基百科(Wikibitia na Tayal)、排灣語維基百科(wikipidiya nua pinayuanan)、賽德克/太魯閣語維基百科(Seediq Wikipidiya)、阿美語維基百科(Wikipitiya)等。

本次的族語錄音補助專案,由台灣維基媒體協會負責財務、稅務跟行政相關事務,並結合族語百科的參與者社群一同進行。

特別感謝

在此感謝以下單位及老師對本專案的鼎力支持:

相關資訊

常見問題

更多資訊與 FAQ 請參考:族語補助專案與錄音網站操作手冊

聯絡資料

台灣維基媒體協會 Common Voice 族語錄音補助專案
專案執行 Irvin Chen (陳心一)
0933561278 / irvin@moztw.org