【即時中心/綜合報導】社群媒體Meta今天推出人工智慧閩南語口語互譯系統,計畫主持人是來自台灣的工程師陳鵬仁,他「為愛翻譯」的初衷是希望他父親能夠用台語和任何人交談,為了為克服這項史無前例的挑戰,陳鵬仁替以口語表達的「閩南語」打造一個史無前例的人工智慧技術翻譯系統。
Meta表示,目前為止,AI翻譯主要著重於各種書寫語言,但在全球超過7000種的現存語言中,有近半數主要以口語表達,沒有標準或廣泛使用的書寫文字系統,這導致Meta無法使用標準技術為這類語言打造機器翻譯工具,因為標準技術需有大量的書寫文字來訓練AI模型。
為克服無廣泛文字系統、主要以口語表達的語言翻譯,Meta研究人員必須開發新的AI方法,從過去的語言翻成文字、再從文字翻譯為語言的方式,改為「語言翻譯成語言」即時語音翻譯。
為開發這個只有語音的全新翻譯系統,Meta AI研究人員必須克服許多來自傳統機器翻譯系統的挑戰,包括資料蒐集、模型設計以及準確度評估。Meta不只會開放閩南語翻譯模型的原始碼,也會公開評估資料集和研究報告,讓其他人能重製並以Meta的工作成果為基礎建立模型。
Meta著手打造閩南語翻譯系統時,面臨的一個重大障礙,是能否蒐集足夠資料。Meta利用中文作為中間語言,以建立偽標籤和人工翻譯,也就是先將英語或閩南語語音翻譯成中文文字,接著再翻譯成閩南語或英語,並新增至訓練資料中。這個方法利用資源充足的相似語言的資料,大幅改善模型成效。
Meta指出,評估主要以口語表達的語言例如閩南語時,挑戰之一是沒有標準的書寫文字系統。為啟動自動評估程序,Meta開發了一套系統,將閩南語語音轉譯成標準化的拼音符號,能夠很容易比較不同方法下的翻譯品質。
Meta也根據名為Taiwanese Across Taiwan的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集。Meta將開放此基準資料集的原始碼,鼓勵其他研究人員合作進行閩南語語音翻譯,一同在這個領域取得更多進展。
Meta表示,在目前的階段,Meta的作法能讓使用閩南語的人士與使用英語者對話。雖然相關模型仍在開發中,而且每次只能翻譯一個完整句子,但已朝向未來實現為各種語言提供同步翻譯的目標邁進。
Meta認為,AI研究有助於打破在現實世界和元宇宙中的語言限制,未來所有語言無論是否可以書寫,都不再是阻礙人們相互理解的障礙,期待為未來順暢無阻的溝通持續貢獻。
歡迎討論或留言給我們: