(央廣訊)訓練生成式AI需要有充足的資料,但台灣繁體中文資料受限於著作權法一直難以提供。數發部指出,將建立「台灣主權AI訓練語料庫」,鬆綁著作權法,免費提供訓練語料給國內外的大型語言模型(LLM),讓他們多使用來自台灣的訓練資料,減少AI廠商與内容擁有者的著作權糾紛。
數發部日前指出,為建構台灣AI產業生態系,在資料部分,將建立「台灣主權AI訓練語料庫」,免費提供訓練語料給國內外的大型語言模型(LLM),讓他們多使用來自台灣的訓練資料,降低大型AI 語言模型(LLM)取得訓練資料的成本,減少AI廠商與內容擁有者的著作權糾紛。其中,無個資的部分會修「促進資料創新利用發展條例」(草案),有牽涉個資的,則有「資料匯流與隱私強化計畫」。
至於語料來源,有別於國際上是以授權金的方式提供給OpenAI,數發部則是以自願性方式、以取得授權或是沒有著作權的為優先。如民間捐贈的散文、小說、評論、新詩、論文、傳記;還有政府擁有著作權的非機密性文件,如施政計畫、施政報告、研究報告、政府出版品等。
數發部次長林宜敬指出,發展生成式AI最大的挑戰不是技術,而是法律跟政治上的挑戰,對於美國這大型語言模型來講,他們擔心的不是要付多少錢,而是時間跟談判的成本;若我們沒辦法提供一些繁中、台灣觀點的語料庫,那麼他的選擇就是避開台灣的任何內容。他說:『(原音)他就會去使用簡體的內容,那這個對台灣來講就是最不容易的一件事情,那我們知道說這個的確是一個充滿著挑戰的一個問題,所以我們現在我們很努力在做,但是我們沒有辦法確實的講一個時間。』
林宜敬強調,所以現在能做的就是趕快先把政府可以提供出來的資料先提供出來,可以講說是一種救急,民間的部分則希望取得大家的共識,包含立法院的溝通、媒體同業的溝通,跟所有大眾的溝通,這個會花費相當多的時間,估計可能不是一、兩年之內就能得到共識。