跳到主要內容區塊
僑務電子報
:::

台灣客語語料庫試用版上線 奠定數位應用基礎

2021-12-26
中央社提供
分享
分享至Facebook 分享至Line 分享至X
客家委員會宣布「台灣客語語料庫」試用版24日上線,收錄包含書面、口語逾600萬字客語語料,將為拓展客語語音數位應用奠定基礎。
客家委員會宣布「台灣客語語料庫」試用版24日上線,收錄包含書面、口語逾600萬字客語語料,將為拓展客語語音數位應用奠定基礎。

客家委員會舉辦「建置台灣客語語料庫」成果發表記者會,宣布台灣客語語料庫試用版24日上線,迄今收錄包含書面、口語逾600萬字客語語料,將為拓展客語語音數位應用奠定基礎。

客委會委託國立政治大學規劃建置台灣客語語料庫,政治大學教授賴惠玲說,台灣客語語料庫的語料來源為全台灣客語書寫的客語文本,以及客語發音的口語內容。網址為https://corpus.hakka.gov.tw/,開放使用。

她說明,其中書面語料方面,蒐羅台灣客語早期珍貴作品到近期出版品。

口語語料來源則包含電視節目,以及執行團隊採錄的客語口說內容,包含訪談、演講、日常生活對話、說故事等,相關工作並號召客語薪傳師協助完成。

她並說,台灣客語語料庫系統有數項功能,首先,「資料視覺化與多媒體展示」,入口網頁設置客語常用詞文字雲、客語特色詞彙展示,透過是覺化,方便民眾快速瀏覽。

其次,「語言典藏與保存」,透過書面語料及口語語料的蒐集,完成台灣客語六腔的基礎保存,這六腔包含四縣、海陸、大埔、饒平、詔安、南四縣。

第3是「教學研究與數位化應用」,語料檢索系統及客語斷詞及詞性標注器的設置,能作為客語學術研究、教學推廣使用,同時完成台灣客語的數位接軌,建立語言資料與資訊科技介接的管道,可提供大數據分析能力,成為後續台灣客語數位應用的重要元素。

參與建置語音資料庫的華碩雲端總經理吳漢章並說,資料庫內有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用。

相關新聞

top 內政部修訂僑民役男服役規定 僑民既有權益不受影響