主權AI 繁體語料庫待補強

數位發展部長林宜敬18日到立法院備詢。(姚志平攝)

臺灣推動「主權AI語料建設」進入實作階段,但整體規模仍與國際存在頗大差距。數位發展部長林宜敬18日於立法院交通委員會表示,目前臺灣語料庫累計約11億tokens,與國際動輒數百億規模相比明顯不足,且資料來源多集中於政府,內容重複性偏高,仍有強化空間。

數發部於去年12月24日公佈「主權AI訓練語料庫」,以正體中文爲核心,目標讓模型更貼近臺灣語言使用與社會情境。林宜敬昨指出,國際大型語言模型雖具備龐大資料量,但高品質繁體中文語料相對不足,且大量資料來自簡體中文,可能帶入特定觀點,因此臺灣必須優先補足繁體中文語料,確保語言與價值基礎符合在地需求。

林宜敬表示,目前語料來源主要爲政府開放資料,後續將擴大納入授權研究資料,包括中研院相關資源,並透過制度設計引導民間參與,逐步提升語料規模與多樣性。

在國際競爭現實上,林宜敬透露,與Google等業者交流時,對方指出之所以未大量採用臺灣語料,主因在於簡體中文資料量龐大,且中國在著作權規範較爲寬鬆,使用成本與法律風險較低;相較之下,臺灣著作權保護嚴謹,授權與取得成本較高,影響資料擴充速度。

制度面上,林宜敬指出,AI發展對既有著作權制度形成挑戰,相關規範釐清預估需耗費3至5年,須由產業與法律體系逐步調整,目前由智慧財產局主責研議,數發部將配合推動。

林宜敬表示,在法制尚未明確前,將優先使用政府持有著作權、爭議較低的資料作爲訓練基礎,並持續擴大語料來源與提升品質,逐步縮小與國際AI模型之間的差距。