主權AI 繁體語料庫待補強

數位發展部長林宜敬18日到立法院備詢。（姚志平攝）

臺灣推動「主權AI語料建設」進入實作階段，但整體規模仍與國際存在頗大差距。數位發展部長林宜敬18日於立法院交通委員會表示，目前臺灣語料庫累計約11億tokens，與國際動輒數百億規模相比明顯不足，且資料來源多集中於政府，內容重複性偏高，仍有強化空間。

數發部於去年12月24日公佈「主權AI訓練語料庫」，以正體中文爲核心，目標讓模型更貼近臺灣語言使用與社會情境。林宜敬昨指出，國際大型語言模型雖具備龐大資料量，但高品質繁體中文語料相對不足，且大量資料來自簡體中文，可能帶入特定觀點，因此臺灣必須優先補足繁體中文語料，確保語言與價值基礎符合在地需求。

林宜敬表示，目前語料來源主要爲政府開放資料，後續將擴大納入授權研究資料，包括中研院相關資源，並透過制度設計引導民間參與，逐步提升語料規模與多樣性。

在國際競爭現實上，林宜敬透露，與Google等業者交流時，對方指出之所以未大量採用臺灣語料，主因在於簡體中文資料量龐大，且中國在著作權規範較爲寬鬆，使用成本與法律風險較低；相較之下，臺灣著作權保護嚴謹，授權與取得成本較高，影響資料擴充速度。

制度面上，林宜敬指出，AI發展對既有著作權制度形成挑戰，相關規範釐清預估需耗費3至5年，須由產業與法律體系逐步調整，目前由智慧財產局主責研議，數發部將配合推動。

林宜敬表示，在法制尚未明確前，將優先使用政府持有著作權、爭議較低的資料作爲訓練基礎，並持續擴大語料來源與提升品質，逐步縮小與國際AI模型之間的差距。

相關資訊