2024 年 12 月至 2025 年 3 月,MozTW 社群與台灣維基媒體協會協力,正在推動六個台灣原住民族語的錄音補貼,以建構第一套自由開放的族語語音資料庫,促進本土語言的語音科技發展。
Common Voice 是什麼?
「Common Voice」(commonvoice.mozilla.org),是由開發 Firefox(火狐)瀏覽器的非營利組織 Mozilla 基金會(Mozilla Foundation)發起的開放語音庫專案。旨在蒐集世界各地的語音錄音,並以 CC0 公眾授權免費釋出。讓廠商、研究者及開發者等任何人都能自由下載,打造自己的語音專案,亦不限制商業使用。
Common Voice 計劃的理想,是世界上的所有人,不論使用哪一種母語,都能享有語音輸入、語音合成與智慧助理(如 Hey Siri 或 OK Google)等語音科技。不同於傳統商業公司的封閉模式,Mozilla 選擇與全球社群志工攜手合作,共同蒐集、整理語料,並以開放授權發佈資料集。
自 2017 年開始至今,經過八年各地社群的參與,Common Voice 已涵蓋 300 多種語言,成為全球最大的開放語音語料集。
發展歷程
Common Voice 起始自 2017 年在台灣的 Voice Jam 工作坊活動。
錄音網站開放後,MozTW 志工(及廣大的自由軟體社群參與者,如 g0v 成員)於 2018 年開始著手國語(台灣華語)的開設與推廣事宜,至今已累積 125 個小時以上的國語語料。2020 年我們協助 Mozilla 香港社群上線香港廣東話。於 2022 年,我們推動台語錄音上線,至今也累積了 23 小時的免費開放語料。
2024 年末,我們爭取到 Mozilla 對於小型語言的補助,開始進行此原住民族語的語音錄音專案。
關於 Common Voice 多年來在台灣的進展,推薦閱讀此篇最新的英文專訪,有提到台灣志工的參與脈絡:Mozilla is now offering free AI voice training data in 180 languages - Fast Company
參與名單
經個別參與者同意,我們將族語錄音專案的錄音者部分列舉於下,特此感謝各位老師與同學的協助。
賽德克語
德固達雅賽德克語 kari Seediq Tgdaya
- 吳克信 (Umin Nawi)
- 郭明吉(Walis Pawan)
- 桂素芳(Aking Puhuk)
- 林江苹秀(Bilaq Watan)
都達賽德克語 kari Sediq Toda
- 洪良全(Uya Pawan)
- 曾慧玲(Bakan Teymu)
德鹿谷賽德克語 kari Seejiq Truku
- 高玉美(Lubi Pingaw)
- 白玉珍(Away Buyung)
- 江凱文(Walis Huwac)
排灣語
- dremedreman tjamatjakan 葉曉音
- semasiang ngirengir 蔡光明
- madraw ljegu 廖曉雯
- kuliw taljialan 葉王靖
- tjaiwan parilaw 博睿齊
- giljigiljaw matalaq 陸飛堯
- tamiku paqaliyus 利芳慈
- vais ljegu 許芸熙
- nuway ljegu 許芸臻
魯凱語
- Lavaoso Lrarobociak 拉法鄔索拉魯布價克
- Lavaoso Lataroribake 張小芳
- Tagaga Palribulungu 包鳳嬌
- Galraigai·Palikiliki 洪金玉
- Moni Lacinakele 林玉花
- Gilagilaw Larorakada 林勝華
- Paelrese Kadrangilane 柯秋美
- Maleveleve Thalimaraw 杜慶齡
- Tanebake 謝至軒
- Kedrekedre Dalapadhane 唐秀月
- Peresang·Sukinarhimi 貝若桑·甦給那笛米
文本語料來源
在族語專案錄音過程中,我們發現部分文本存在文意不符、單詞或拼寫錯誤等情況。因 Common Voice 系統限制,相關內容未能事先更正仍直接進行錄製。錄音者與教材之間是為共同協作關係,特此說明。
十二年國教原住民族語文教材
族語專案的錄音文本取自《十二年國教原住民族語文教材》第一至九階課文之族語(羅馬字)內容,各方言計 500~700 句不等,經中華民國教育部國民及學前教育署(K-12 Education Administration, Ministry of Education, Taiwan ROC)授權。特別感謝時任教育部政務次長葉丙成協助協調授權事宜。
族語聖經
部分族語文本選自《族語聖經》,感謝財團法人台灣聖經公會(The Bible Society in Taiwan)授權。
- 郡群布農語包含《布農語聖經》選句共 118 句。
- 多納語、萬山語、茂林語包含《馬可福音》選句各 59 句。
- 賽考利克泰雅語包含《泰雅爾語聖經》選句共 115 句。
- 德固達雅賽德克語包含《賽德克族 Tgdaya 語聖經》選句共 119 句。
台⼤台灣南島語語料庫
部分族語文本選自國⽴台灣⼤學語⾔學研究所《台⼤台灣南島語語料庫》(NTU Corpus of Formosan Languages, Graduate Institute of Linguistics, National Taiwan University),感謝宋麗梅老師協助。
- 霧台魯凱語(
veday
)包含《台⼤台灣南島語語料庫》選句共 857 句。 - 撒奇萊雅語包含《台⼤台灣南島語語料庫》選句共 225 句。
- 德固達雅賽德克語(
tgdaya
)包含《台⼤台灣南島語語料庫》選句共 6 句。
下載語料集 / 錄音成果
錄音結果以 CC0 公眾領域授權 釋出,Mozilla 不對其作出任何版權限制,任何人跟公司都可以自由的下載與使用於研究與專案開發。
本計畫收集的 77 小時族語語音資料,已於下列頁面公布:
國語與台語語音資料亦發布於下:
Common Voice 每三個月定期釋出錄音資料,你可以在這邊下載到超過 330 種語言的錄音檔: datacollective.mozillafoundation.org/datasets
繼續錄音
註冊與操作方式,請參考《族語補助專案與錄音網站操作手冊》
補助費用
本專案經 Mozilla 贊助台灣維基媒體協會進行原住民族語錄音,以建制開放自由的族語語音資料庫。
補助範圍包含「排灣、賽德克、撒奇萊雅、泰雅(含汶水、萬大)、魯凱(含多納、萬山、茂林)、布農」等六大語群,及其下各方言語類。
專案團隊
MozTW, Mozilla 台灣社群
Mozilla 台灣社群( https://moztw.org )是一群在台灣的 Firefox 志工與支持者。我們自 2002 年開始,持續進行 Firefox 等自由軟體跟開放文化相關的翻譯跟推廣活動。
MozTW 社群另在台北經營一個實體的社群活動空間 「摩茲工寮 MozTW Space」 hackerspace,每週五晚上都有 Mozilla 與維基百科志工的定期聚會 MozTW Lab,歡迎隨時來訪。
台灣維基媒體協會
台灣維基媒體協會(Wikimedia Taiwan),是台灣的維基媒體分會,包括維基百科在內的各項計畫在台灣的推廣組織。過去數年持續協助政大原民中心,推動原住民族語維基百科,如撒奇萊雅語維基百科(Sakizaya Wikipitiya)、泰雅語維基百科(Wikibitia na Tayal)、排灣語維基百科(wikipidiya nua pinayuanan)、賽德克/太魯閣語維基百科(Seediq Wikipidiya)、阿美語維基百科(Wikipitiya)等。
本次的族語錄音補助專案,由台灣維基媒體協會負責財務、稅務跟行政相關事務,並結合族語百科的參與者社群一同進行。
特別感謝
協力單位
在此感謝以下單位及老師對本專案的鼎力支持:
- 國立政治大學原住民族研究中心 ALCD Center for Aboriginal Studies NCCU 黃季平老師
- 臺灣大學語言學研究所 台大台灣南島語語料庫 NTU Corpus of Formosan Languages 宋麗梅老師
- 國民及學前教育署 及 時任教育部葉丙成政務次長 協助協調十二年國教課程原住民族語文教材(族語九階教材)授權事宜
族語團隊
在此感謝以下部落在地成員協助招募與錄音事宜:
- 布農族 Aping 伍阿好老師
- 排灣經典 Payuan Classic kuliw taljialan 葉王靖
- 花蓮縣撒奇萊雅族維基媒體協會
- 泰雅語推組織 Sugiy‧Tosi 素伊‧多夕
- 賽德克族林江苹秀(Bilaq Watan)
相關資訊
最新消息
- 2025/9/17 台灣原住民族語語料庫正式釋出
- 2025/2/21 Mozilla 拓展志工主導的語音資料,催生含括台灣原住民族語的 AI
- 2024/12/7 pahaykiw tu ngiha! Common Voice 納入原住民族語計畫開跑
- 2022/2/18 Mozilla Common Voice 語音資料集 8.0 成長至 87 種語言,總長度提升30%,即日起開放台語錄音
- 2019/3/8 同聲計畫 (Common Voice) 語音資料正式釋出!
- 2018/6/8 Mozilla 同聲計畫(Common Voice)打開多語大門 壯大開源語音資料
- 2018/7/18 Mozilla Common Voice 開源語音資料庫 正體中文募集開跑
相關報導
- 2025/2/21 mashdigi - 全球最大的開放語音資料庫,Mozilla 同聲計畫收錄8種台灣原住民族語 |
- 2025/2/21 台灣好報 - 2/21 國際母語日 Mozilla Common Voice 平台 新收錄八種台灣原住民族語 AI
- 2025/2/21 Cool3c - 全球最大開放語音資料庫 Mozilla 同聲計劃納入 8 種台灣原住民語
- 2025/2/18 原住民族廣播電台 - 結合 AI 打造族語語音資料庫 台灣維基媒體協會推動〝台灣原住民族語計畫〞
- 2021/9/1 Cool3c - NVIDIA 以 AI 人工智慧打造擬人化語音應用提供更自然的人機互動 #Mozilla Common Voice
- 2020/7/6 iThome - Mozilla 釋出最新長達 7,226 個小時的 Common Voice 語音資料集
- 2019/3/1 iThome - Mozilla 公開全球最大公共領域轉錄語音資料集
- 2019/1/24 TechNews 科技新報 - 總長 30 小時鄉民貢獻聲音,Mozilla 同聲計畫中文語音資料搶鮮版開放下載
- 2018/7/20 數位時代 - Mozilla 號召網友「獻聲」,要打造開源語音辨識系統
- 2018/7/19 iThome - 捐出你的聲音! Mozilla 開源語音資料專案 Common Voice 開始募集正體中文音檔
- Google 相關新聞彙整
- 歷年 Common Voice 相關新聞與研究彙整共筆
外媒介紹
常見問題
更多資訊與 FAQ 請參考:族語補助專案與錄音網站操作手冊
聯絡資料
台灣維基媒體協會 Common Voice 族語錄音補助專案
專案執行 Irvin Chen (陳心一)
irvin@moztw.org