編按:《客新聞》將不定期推出【專業客】專欄,我們邀請各行業的專家、學者或是經驗豐富的職人,對當下新聞熱門議題,發表最專業的看法,試圖在各種網路帶風向、假訊息當道的時代,提供理性思考的方向。
【專業客】張陳基 教授
「今晡日个科技,天光日个客家!」最近,人工智慧(Artificial Intelligence, AI)的應用已經逐漸普及到我們日常生活的各個領域中,尤其是ChatGPT聊天機器人成為火熱話題,它採用OpenAI的GPT-3.5語言模型,GPT( Generative Pre-trained Transformer)採用AI中生成式預訓練的技術。根據台灣大學電機工程學系李宏毅教授的解析,ChatGPT的訓練學習是透過閱讀大量的文本資料,再經由專家校對,引導語言模型更接近人類對話的方式。由此可知,AI有一個最大的限制-資料偏差問題(Data Bias),就是在訓練的時候需要大量的文本語料,而這也造成了AI對客家的偏見。
◾問客家文化AI亂答一通,客語「低資源語言」成關鍵
如果你問ChatGPT客家相關的問題,你會發現聊天機器人好像對於客家文化不是很了解,例如問在台灣,客家人的分佈區域?AI會回答「台灣客家人的主要分佈區域是在台灣中部和南部地區,特別是在新竹、苗栗、台中、彰化、雲林、嘉義和屏東等縣市。」很明顯它回答的資訊並非完全正確。
如果你再問他有關於客家語言或文化的相關問題,很有可能都回答錯誤。為什麼呢?那是因為在開發AI聊天機器人時,需要大量的文本語料來進行訓練語言模型(Large Language Models),也就是透過大量的文本語料來教導聊天機器人如何去回答問題,但是關於客家語言和文化的相關文本語料量卻是相對非常少,尤其是客家語言。

客家語言在人工智慧技術開發上被視為是低資源語言(Low Resource Language)。對於人工智慧而言,低資源語言是指可用於訓練機器學習模型的數位化資料數量有限的語言。這些語言擁有非常稀少的數位化資源,包括建構和改進AI 應用程式所必需的文本語料庫、語音數據等。AI人工智慧透過主流語言的模型訓練,讓華語的辨識、語音合成更加流暢,造成客家語言的邊緣化,進而加劇這個問題。
這是因為大多數 AI 語言模型都是在高資源語言(例如英語或華語)的大型數據集上訓練的,這可能會導致在低資源語言上表現不佳。因此,客家族群可能無法享受AI技術帶來的好處,例如語音助理或機器翻譯,這些技術通常只適用於高資源語言。這可能會導致客家語言和文化進一步被邊緣化,講客語的人就被迫切換到使用便利的語言以獲取相關資訊和參與主流社會的網路社群。
那麼,如何解決AI對客家的偏見問題呢?首先,需要儘可能減少資料偏差。這可以通過增加資料的多樣性、確保資料的平衡性等方式來實現。客家語言資料的匱乏是客家語言文字推廣和文化傳承的重大障礙。沒有足夠的語言資源和數據,就很難開發出有效的語言模型和AI應用。
因此,我們需要多方合作,例如將客委會發展的臺灣客語語料庫,包括文本語料、口語語料都納入訓練資料集,只有這樣,我們才能更好地應用AI,實現人工智慧技術在各個族群的多樣性發展,並且確保對所有族群文化都被公平的對待。
◾文化同質與族群族流成為文化多樣性的矛與盾
也因為人工智慧沒有人類時間與空間的限制,透過海量的訓練,讓高資源語言被普及應用,也相對的造成低資源語言愈來愈被弱化的情況下,導致文化同質化(Cultural Homogenization)的問題。文化同質化就是指不同族群的傳統文化、習俗跟信仰被單一的主流文化所取代,全球化及網路媒體的興起造成了文化同質化的情形,而人工智慧的發展則會讓問題更加嚴重。
原因是AI通常是在偏向主流文化和語言的大型資料集上開發和訓練的,這可能導致AI優先考慮並強化主流文化傳統和價值觀,同時邊緣化客家或是其他族群文化。低資源語言資料的缺乏,也意味著AI可能無法準確反應少數族群的傳統、歷史、語言和文化多樣性,導致文化表現的同質化,只有主流文化和高資源的語言能夠呈現在AI生成的內容中。
因此,文化同質化和族群主流化是在文化多樣性和客家文化推廣背景下經常被討論的兩個互斥的概念,分別代表了處理文化多樣性的不同方法,文化同質化是指不同的文化表現形式和習俗被單一主流文化所取代的過程,最終結果是文化多樣性的喪失和同質化、標準文化的出現。族群主流化是指將不同的文化表現形式和習俗融入主流文化的過程,強調文化多樣化的價值,並力求促進少數族群融入主流社會的公平參與。

◾AI發展可能傷及族群主流化,需培養族群文化素養把關
目前AI的發展,很有可能對於台灣辛苦推動的族群主流化成果造成巨大的傷害,讓客家文化再次被排除到主流社會之外。要解決AI所導致文化同質化問題,首先,就應該推動AI的族群主流化,讓AI的發展具有文化多樣性以及公平參與性。在開發國家型AI計畫時可以考慮團隊成員的多樣性,讓不同族群背景的專家學者共同參與設計開發過程,確保AI設計考慮到族群文化的多樣性,避免產生同質化問題。
其次,訓練資料的多樣性,AI的發展會採用大型資料集進行訓練,確保這些資料集的多樣性和包容性非常重要。 需要確保這些資料是從不同的文化背景中收集而來,並在使用資料過程中避免產生資料偏差的情形,將客家文化知識融入AI,使用自然語言處理技術來辨識和翻譯文化特色詞彙,並加入訓練資料集。
最後我們應建立族群主流化的檢測機制,從培養人員族群素養、文化意識,以及對不同文化尊重的敏感度下把關,確保資料蒐集、模型訓練過程兼顧到各族群的利益,並且由外部人員評估成果的公平代表性及多樣性。將這些策略納入AI設計和實施計畫中,可以確保族群文化不會被AI同質化,並讓AI可以接受公平性和多樣性的訓練,有助於數位時代下族群主流化社會的永續發展。