數發部推動主權AI　第4季釋出台灣語料庫

章倩萍／ 2025年07月15日

【要聞中心／綜合報導】數位發展部推動主權AI，正預告《促進資料創新利用發展條例》草案。數發部今天（15日）表示，透過《台灣主權AI訓練語料授權條款》，各部會正在盤點適合的資料，未來可上架到台灣主權AI語言資料庫，預計第4季釋出，開放民間與政府機關申請使用。

數發部預告《促進資料創新利用發展條例》草案，自6月16日起預告到8月15日止。數發部今天說明草案內容。

數發部政務次長林宜敬表示，AI模型訓練需要大量資料，希望把政府、民間擁有著作權的資料釋放出來，現在提出草案，讓公務員在不損害個資前提下，讓政府擁有著作權資料可釋放出來，多訓練出有台灣觀點的AI模型。

數發部資料創新司司長莊明芬說，立法重點有4項。首先，擴大開放政府資料，助攻AI模型訓練；其次，政府鼓勵產業間建立互通的資料共享機制，活絡跨域資料共享；第3，透過節省資料取得費用等措施，促進資料創新利用。第4，打造資料創新生態，數發部擬訂「資料創新利用發展基本計畫」，指定政府機關擬訂執行計畫，未來行政院所屬二級機關、縣市政府都須設「資料長」。

至於數發部規劃的台灣主權AI訓練語料庫進度，莊明芬說，過去多年推動的政府開放資料，是採取標準化授權，可完全公開讓AI運用，但大型語言模型需要的是連貫性的文字段落等文本性資料，5萬多筆開放資料中，這類文本資料約僅1000多筆。

數發部為適當消弭AI訓練資料在著作權法上的爭議，近期研擬《台灣主權AI訓練語料授權條款》提供給各機關參考。莊明芬指出，這類非專屬授權，不是授權給特定人使用，部會透過《台灣主權AI訓練語料授權條款》，盤點哪些資料適合上架，若有著作權問題要先處理。客委會、教育部、原民會、文化部等也在盤點語言資料，希望第4季釋出語料庫。

至於釋出的語料量，莊明芬指出，語料庫可能以量化單位「Token（詞元）」作為AI訓練量的單位，不是用過去釋出多少資料量來描述。預期語料庫有些是政府開放資料、政府施政報告或政府出版品等，語料量需要時間慢慢累積，隨著資料增加，未來將逐步納入語料庫。