新聞中心
News Center
2025年11月11日消息,Meta AI FAIR團隊發(fā)布了其在自動語音識別(ASR)領(lǐng)域的最新成果:Omnilingual ASR。這是一個模型套件,能為超過1600種語言提供自動語音識別能力,其規(guī)模和質(zhì)量都達(dá)到了新的水平。該框架被設(shè)計為社區(qū)驅(qū)動,世界各地的人們只需提供少量自己的樣本,就能將Omnilingual ASR擴展到新的語言。

同時開源的,還有一系列相關(guān):Omnilingual ASR Corpus:一個包含350種服務(wù)欠缺語言的轉(zhuǎn)錄語音的大型數(shù)據(jù)集;Omnilingual wav2vec 2.0:一個擴展到70億參數(shù)的、大規(guī)模多語言語音表征模型;語言探索Demo:一個可供人們探索模型所覆蓋語言的演示。
目前,大多數(shù)ASR系統(tǒng)都集中在互聯(lián)網(wǎng)上資源豐富的一小部分語言上,這加劇了低資源語言使用者面臨的數(shù)字鴻溝。Meta FAIR團隊推出的Omnilingual ASR,旨在通過一個通用轉(zhuǎn)錄系統(tǒng),讓高質(zhì)量的語音轉(zhuǎn)文本技術(shù)能夠惠及代表性最不足的語言社區(qū)。其最終目標(biāo)是打破語言障礙,實現(xiàn)跨語言和文化背景的交流。
盡管ASR技術(shù)近年來在許多高資源語言上已接近完美,但擴大語言覆蓋范圍一直是一項資源密集型任務(wù),現(xiàn)有AI架構(gòu)對數(shù)據(jù)的需求過高,難以實現(xiàn)通用擴展。Omnilingual ASR通過引入兩種架構(gòu)變體來解決這一研究瓶頸。首先,團隊首次將其wav2vec 2.0語音編碼器擴展到70億參數(shù),從原始、未轉(zhuǎn)錄的語音數(shù)據(jù)中生成了豐富的、大規(guī)模多語言語義表征。接著,團隊構(gòu)建了兩種解碼器變體,將這些表征映射到字符序列:1.一種依賴傳統(tǒng)的連接主義時間分類(CTC)目標(biāo)。2.另一種利用了在LLM中常見的傳統(tǒng)Transformer解碼器。這種被稱為LLM-ASR的方法,在ASR性能上實現(xiàn)了階段性提升,尤其是在長尾語言上。結(jié)果顯示,其7B-LLM-ASR系統(tǒng)在超過1600種語言上達(dá)到了SOTA性能,其中78%的語言字符錯誤率(CER)低于10。
除了擴展到1600多種語言外,Omnilingual ASR還改變了引入新語言的范式。在大多數(shù)現(xiàn)有系統(tǒng)中,添加新語言需要專家驅(qū)動的微調(diào)。而Omnilingual ASR引入了首個能夠僅憑少量上下文示例就擴展到全新語言的大規(guī)模ASR框架。這得益于其受LLM啟發(fā)的系統(tǒng),該系統(tǒng)從大語言模型領(lǐng)域引入了上下文學(xué)習(xí)能力。在實踐中,這意味著一個使用不支持語言的用戶,只需提供少數(shù)幾個成對的音頻-文本樣本,就能獲得可用的轉(zhuǎn)錄質(zhì)量——無需大規(guī)模訓(xùn)練數(shù)據(jù)、專業(yè)知識或高端計算資源。