中銀全幣種信用卡
2024年07月02日
第B08版:科技
澳門虛擬圖書館

智能工具可翻譯二百種語言

美國“元”公司新研發的一個人工智能模型

NLLB模型的研發團隊來自Meta AI等地

智能工具可翻譯二百種語言

人類有超過七千種語言,其中包括使用人數不多、相關資料稀少的“小眾語言”。美國“元”公司新研發的一個人工智能模型,能翻譯二百種不同語言,實現了對較多“小眾語言”在線翻譯。

人工智能翻譯目前多利用基於人工神經網絡的模型翻譯各種語言。這些模型通常需要大量可在線獲取的訓練數據。不過,有些特定語言的數據尚不能公開和低成本獲取或普遍可及,這類語言又被稱為“低資源語言”。

“元”公司團隊新研發的一種跨語言技術,能讓基於人工神經網絡的翻譯模型學習如何利用已有的翻譯高資源語言的能力來翻譯低資源語言。團隊應用該技術開發了一個名為NLLB-200的在線多語言翻譯工具,可容納二百種語言,其能翻譯的低資源語言的數量是高資源語言數量的三倍。這一研究成果近期發表在英國《自然》雜誌上。

由於研究團隊在許多低資源語言上只能獲取一千至二千例樣本,為擴大NLLB-200的訓練數據量,他們利用一個語言識別系統發現了這些特定語言的更多實例。團隊還從互聯網存檔中挖掘這些語言與英語的雙語文本數據,幫助提升模型的翻譯質量。

少數語言在互聯網上佔據主導地位,據統計,一半以上的網站都是英文的,前十種語言佔據了八成以上的互聯網內容。NLLB模型最大的價值在於,它提供了一種擴大“資源匱乏”型語言機器翻譯規模的方法,這些資源匱乏的語言幾乎沒有可獲取的數字資源。通過艱辛努力,技術人員開墾了大片“無人區”——在它現在可以互翻的二百多種語言中,許多語言是第一次被機器翻譯。包括南非的茨瓦納語、達裡語,阿富汗所使用的一種波斯語,波利尼亞的薩摩亞語等等。

NLLB模型的研發團隊來自Meta AI、加州大學伯克利分校和約翰霍普金斯大學。這些出色的科學家們共同開展了這個“不讓任何一門語言掉隊”計劃,他們選取了維琪百科文章中出現的語言,但線上可用的示例翻譯句子不足一百萬個。這項工作將之前反覆運算的語言數量增加了一倍,並提高了翻譯品質。

NLLB團隊聘用了專業譯員和審校人員,創建了卅九種語言的“種子”資料集,並開發了一種技術,使他們能夠挖掘網路資料,創建其餘語言的並行資料集。人類專家的參與既耗時又昂貴,但卻至關重要。如果沒有他們,演算法將只能使用AI生成的低質量數據進行訓練,然後在反覆運算過程中重複這些低品質和錯誤內容,進一步降低模型表現。

研究者稱,該翻譯工具可幫助低資源語言使用者使用互聯網等技術,且這一模型還可用於教育,幫助這類人群獲取更多圖書和論文資料。不過研究者也表示,這一工具的誤譯情況仍有可能出現。

月 比

2024-07-02 月 比 1 1 澳门日报 content_348361.html 1 智能工具可翻譯二百種語言 /enpproperty-->