當(dāng)前位置：時代焦點(diǎn)網(wǎng) -> 產(chǎn)業(yè)

該技術(shù)未來可用在手機(jī)智能助手AR眼鏡等智能設(shè)備上

發(fā)布時間：2022-01-11 02:41 來源：IT之家閱讀量：12467

借助讀唇語，人類能夠更容易聽懂他人的講話內(nèi)容，那么 AI 也能如此嗎。

最近，Meta 提出了一種視聽版 BERT，不僅能讀唇語，還能將識別錯誤率降低 75%。

效果大概就像如下這樣，給一段視頻，該模型就能根據(jù)人物的口型及語音輸出他所說的內(nèi)容。

而且與此前同類方法相比，它只用十分之一的標(biāo)記數(shù)據(jù)，性能就能超過過去最好的視聽語音識別系統(tǒng)。

這種結(jié)合了讀唇的語音識別方法，對于識別嘈雜環(huán)境下的語音有重大幫助。

Meta 的研究專家 Abdelrahman Mohamed 表示，該技術(shù)未來可用在手機(jī)智能助手，AR 眼鏡等智能設(shè)備上。

目前，Meta 已將相關(guān)代碼開源至 GitHub。

自監(jiān)督 + 多模態(tài)

Meta 將該方法命名為 AV—HuBERT，這是一個多模態(tài)的自監(jiān)督學(xué)習(xí)框架。

多模態(tài)不難理解，該框架需要輸入語音音頻和唇語視頻兩種不同形式內(nèi)容，然后輸出對應(yīng)文本。

Meta 表示，通過結(jié)合人們說話過程中嘴唇和牙齒活動，語音方面的信息，AV—HuBERT 可以捕捉到音頻和視頻間的微妙聯(lián)系。

這和人類本身感知語言的模式很相似。從長遠(yuǎn)來看，Meta希望有一天“Meta宇宙”能夠同時承載廣告和電商業(yè)務(wù)。

此前已經(jīng)有研究表明，閱讀唇語是人類理解語言的一種重要方式尤其是在嘈雜的環(huán)境下，通過讀唇可以將語言識別的準(zhǔn)確性最高提升 6 倍

在該模型中，通過一個 ResNet—transformer 框架可將掩碼音頻，圖像序列編碼為視聽特征，從而來預(yù)測離散的集群任務(wù)序列。

具體來看，AV—HuBERT 使用幀級同步的音頻流和視頻流作為輸入，來更好地建模和提取兩種模態(tài)之間的相關(guān)性。

圖像序列和音頻特征能夠通過輕量級的模態(tài)特定編碼器來產(chǎn)生中間特征，然后將這個中間特征融合并反饋到共享的主干 transformer 編碼器中，以此來預(yù)測掩蔽聚類任務(wù)。

該目標(biāo)是根據(jù)聚類音頻特征或 AV—HuBERT 模型上一次迭代中提取的特征生成的。

當(dāng)對唇讀微調(diào)時，該模型只使用視覺輸入，不使用音頻輸入。

結(jié)果表明，AV—HuBERT 經(jīng)過 30 個小時帶有標(biāo)簽的 TED 演講視頻訓(xùn)練后，單詞錯誤率為 32.5%，而此前方法能達(dá)到的最低錯誤率為 33.6%，并且此方法訓(xùn)練時間高達(dá) 31000 個小時。

WER 是語音識別任務(wù)中的錯誤率指標(biāo)，計算方法為將錯誤識別單詞數(shù)除以總單詞數(shù)，32.5% 意味著大約每 30 個單詞出現(xiàn)一個錯誤。

經(jīng)過 433 個小時 TED 演講訓(xùn)練后，錯誤率可進(jìn)一步降低至 26.9%。

另一方面，AV—HuBERT 與前人方法最大不同之處在于，它采用了自監(jiān)督學(xué)習(xí)方法。

此前 DeepMind，牛津大學(xué)提出的方法中，由于需要對數(shù)據(jù)集打標(biāo)簽，使得可學(xué)習(xí)的詞匯范圍受到限制。

AV—HuBERT 在預(yù)訓(xùn)練中使用特征聚類和掩蔽預(yù)測兩個步驟不斷迭代訓(xùn)練，從而實(shí)現(xiàn)自己學(xué)習(xí)對標(biāo)記的數(shù)據(jù)進(jìn)行分類。

這樣一來，對于一些音頻數(shù)據(jù)集很少的語言，AV—HuBERT 也能很好學(xué)習(xí)。。

在使用不到十分之一的標(biāo)記數(shù)據(jù)情況下，該方法可將識別錯誤率平均降低至此前方法的 75%。

事實(shí)上，在有噪音的環(huán)境中，能讀唇語的語音識別方法更能大顯身手。

Meta 研究人員表示，當(dāng)語音和背景噪音同樣音量時，AV—HuBERT 的 WER 僅為 3.2%，而之前的最佳多模態(tài)模型為 25.5%。

仍存在弊端

顯然，在各方面數(shù)據(jù)上，Meta 新方法的表現(xiàn)著實(shí)讓人眼前一亮。

但是基于現(xiàn)實(shí)使用方面的考慮，有學(xué)者提出了一些擔(dān)憂。

其中，華盛頓大學(xué)的人工智能倫理學(xué)專家 Os Keye 就提到，對于因患有唐氏綜合征，中風(fēng)等疾病而導(dǎo)致面部癱瘓的人群，依賴讀唇的語音識別還有意義嗎。

對此，Meta 方面研究人員回應(yīng)稱，AV—HuBERT 方法更多關(guān)注于唇部動作，并非整個面部。

而且與大多數(shù) AI 模型類似，AV—HuBERT 的性能與訓(xùn)練數(shù)據(jù)中不同人群的代表性樣本數(shù)量成正比。Meta與廣告高管就“MetaUniverse”進(jìn)行的討論表明，該公司正在努力將“MetaUniverse”轉(zhuǎn)變?yōu)橐豁?xiàng)有利可圖的業(yè)務(wù)，盡管“MetaUniverse”可能需要數(shù)年時間才能成熟。

論文地址:

GitHub 地址:

參考鏈接:

。

聲明：本網(wǎng)轉(zhuǎn)發(fā)此文章，旨在為讀者提供更多信息資訊，所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問，請與有關(guān)方核實(shí)，文章觀點(diǎn)非本網(wǎng)觀點(diǎn)，僅供讀者參考。

天堂中文最新版,果冻传媒在线观看视频,AA区一区二区三无码精片,欧美折磨另类系列sm

該技術(shù)未來可用在手機(jī)智能助手AR眼鏡等智能設(shè)備上

最新文章

熱門文章