文/羅世宏

畢業於倫敦政經學院,立志不做大官,也不做大事。平日最喜歡做的事是閱讀、思考和寫作。最大的缺點是「好為人師」。

當生成式人工智慧(AI)迅速滲透新聞、娛樂、教育與公部門等溝通場域時,語言不平等的結構性問題也被不自覺地複製與強化。客語不僅在媒體中處於邊緣位置,也在AI訓練語料中處於邊緣位置。這使得客語族群在AI時代面臨雙重邊緣化的危機。

由於當前主流的人工智慧語言模型訓練資料,主要集中於英語、華語、日語與西班牙語等高資源語言,台灣的客語、原住民族語及新住民語言則普遍被視為「低資源語言」(low-resource language),參與生成式 AI 技術開發的機會極其有限。

正如《客新聞》在2023年3月的報導,國立聯合大學張陳基教授針對 ChatGPT 的觀察發現,主流語言模型在處理客家語言與文化問題時錯誤頻傳。

這種語言邊陲化現象,損及客語與原住民族語言使用者在AI生態系中的話語權。當AI新聞摘要、語音助手、客服機器人普遍不支援客語,客語族群即被默默排除於新一波數位語言版圖之外。事實上,AI時代的資訊基礎設施本質上仍建構於主流語言使用者的世界觀之上,導致許多少數族群語言無從被看見、聽見。

令人欣慰的是,政府近期也開始注意到語言平權與AI發展之間的關聯性。2025年6月,數位發展部正式宣布啟動「台灣主權AI語料庫」計畫,並確認將客語與原住民族語言納入訓練語料。該計畫強調資料自主性與語料多元性,不久的未來將先行釋出第一階段語料,並搭配語料授權條款,開放公部門與產業使用。

然而,有不少人擔心,目前蒐集的語言資料偏重政府文書與官方語體,恐怕難以涵蓋語言的活用脈絡與文化深度。若語料庫內容失衡,仍可能重複過去主流導向與邊陲排除的語言平權問題。因此,未來語料蒐集與應用過程,必須廣納語言專家、文化工作者與族群媒體的參與,以確保語言多樣性的數位再生產。

在語言復振的全球趨勢中,值得借鏡的是中國東北對滿語的保育經驗。根據《中國統計年鑑2024》,滿族人口超過1042萬,但能流利使用滿語者屈指可數。黑龍江大學滿學研究院建立滿通古斯語料庫,透過數位化保存文本、音檔與民歌神話,搶救語言文化記憶。這些努力顯示,語言的「消失」不代表文化的終點。相反的,透過科技工具與教育傳承,少數族群語言仍有重獲新生的機會。

同樣地,AI偏見的問題也凸顯族群語言邊緣化的風險。根據2024年一篇發表於《自然》(Nature)的研究論文顯示,大型語言模型在面對不同語言變體時存在明顯偏見。例如,針對非裔美國英語(African American English, AAE)使用者,AI模型給予較高定罪率與較低職業尊重度,甚至給出較高比例的死刑量刑建議。當客語或其他少數語言未被納入訓練語料,或語境未被理解時,類似的語言歧視也可能於無聲中重演。

因此,族群語言的存續與發展,必須與媒體科技同步升級,否則AI只會成為另一道語言不正義的藩籬。