數發部：台灣主權AI訓練語料庫　拚下半年與民間合作

2026-01-28

中央社提供

台灣主權AI訓練語料庫上線逾1個月，數發部今天表示，政府機關持續新增內容，目前共逾3000筆資料集、超過11億詞元（Tokens），已有企業與學研界申請使用；第1季、第2季會邀集地方政府投入，目標今年下半年與民間團體合作。

數發部推動台灣主權AI訓練語料庫，第1階段以中央機關先行，收錄各機關具台灣文化特色的高品質資料集，涵蓋語言、文化、教育、生物、地理環境等領域，語料庫去年12月24日上線，AI模型訓練等需求者可上台灣主權AI訓練語料庫（https://taic.moda.gov.tw）申請。

數發部資料創新司司長莊明芬今天表示，中央機關持續上傳內容，提供高品質、具在地化特色的正體中文語料，語料庫詞元數量已翻倍成長，新增資料以文化、教育與歷史類為主，目前申請者多來自企業、學術界及大學。

莊明芬指出，數發部也與中研院、台灣文學館等單位洽談，未來希望資料量較豐沛的機關能進行盤點，釋出相關資料；地方政府擁有在地文化與歷史等內容，數發部預計第1季、第2季邀集地方政府投入，並將舉辦說明會向民間推廣，鼓勵民間主動參與，優先無償提供高品質語料，預計今年下半年與民間團體展開合作。

她也談及，在資料治理方面，政府資料開放平台運作至今已逾10年，累計超過5萬項資料集，資料可運用於多項創新應用。其中，「顯著有感地震報告」下載次數最高，累計近120萬次，其次為「小區域有感地震報告」，下載量累計逾62萬次。

另外，數發部數位政府司司長王誠明表示，今年起至民國119年，將推動智慧政府數位化精進發展計畫，由16個機關、31個子計畫組成，包含人工智慧（AI）試用場域與創新計畫、資料匯流、資料隱私強化等，預定投入經費約新台幣120億元，透過AI等技術驅動數位轉型，期盼增加便民服務並提升政府效能。

數發部說明，詞元（Token）簡單來說是AI模型的最小單位，AI不像人類可以一次讀完一句話再回應，而是一字字讀進去，再一字字產出。在這過程中，模型是以詞元（Token）為最小運算單位進行處理。

即時 熱門

上一則下一則