台灣主權AI訓練語料庫上線逾1個月,數發部今天表示,政府機關持續新增內容,目前共逾3000筆資料集、超過11億詞元(Tokens),已有企業與學研界申請使用;第1季、第2季會邀集地方政府投入,目標今年下半年與民間團體合作。
數發部推動台灣主權AI訓練語料庫,第1階段以中央機關先行,收錄各機關具台灣文化特色的高品質資料集,涵蓋語言、文化、教育、生物、地理環境等領域,語料庫去年12月24日上線,AI模型訓練等需求者可上台灣主權AI訓練語料庫(https://taic.moda.gov.tw)申請。
數發部資料創新司司長莊明芬今天表示,中央機關持續上傳內容,提供高品質、具在地化特色的正體中文語料,語料庫詞元數量已翻倍成長,新增資料以文化、教育與歷史類為主,目前申請者多來自企業、學術界及大學。
莊明芬指出,數發部也與中研院、台灣文學館等單位洽談,未來希望資料量較豐沛的機關能進行盤點,釋出相關資料;地方政府擁有在地文化與歷史等內容,數發部預計第1季、第2季邀集地方政府投入,並將舉辦說明會向民間推廣,鼓勵民間主動參與,優先無償提供高品質語料,預計今年下半年與民間團體展開合作。
她也談及,在資料治理方面,政府資料開放平台運作至今已逾10年,累計超過5萬項資料集,資料可運用於多項創新應用。其中,「顯著有感地震報告」下載次數最高,累計近120萬次,其次為「小區域有感地震報告」,下載量累計逾62萬次。
另外,數發部數位政府司司長王誠明表示,今年起至民國119年,將推動智慧政府數位化精進發展計畫,由16個機關、31個子計畫組成,包含人工智慧(AI)試用場域與創新計畫、資料匯流、資料隱私強化等,預定投入經費約新台幣120億元,透過AI等技術驅動數位轉型,期盼增加便民服務並提升政府效能。
數發部說明,詞元(Token)簡單來說是AI模型的最小單位,AI不像人類可以一次讀完一句話再回應,而是一字字讀進去,再一字字產出。在這過程中,模型是以詞元(Token)為最小運算單位進行處理。