本文主要介紹自動(dòng)增益控制agc課程設(shè)計(jì)(自動(dòng)增益控制英文縮寫),下面一起看看自動(dòng)增益控制agc課程設(shè)計(jì)(自動(dòng)增益控制英文縮寫)相關(guān)資訊。
音視頻會(huì)議、麥子直播、短視頻已經(jīng)成為人們 人們的工作、教學(xué)和娛樂都離不開音視頻實(shí)時(shí)通信等關(guān)鍵技術(shù)的廣泛應(yīng)用。在音頻方面,可以預(yù)見的是,客戶的多樣性 業(yè)務(wù)形式、環(huán)境的復(fù)雜性和接入設(shè)備的差異會(huì)帶來一系列問題。我們意識(shí)到單一場(chǎng)景的技術(shù)和策略已經(jīng)不能滿足日益暴露的在線問題,唯一的出路就是音頻預(yù)處理3a(aec,ans,agc)算法走向全場(chǎng)景適配。為了解決復(fù)雜環(huán)境下的噪聲問題,我們推出了阿里云降噪-語音增強(qiáng)算法,強(qiáng)化了傳統(tǒng)降噪技術(shù)在非穩(wěn)態(tài)噪聲抑制方面的缺陷;為了解決音量問題,我們推出了ali agc-自動(dòng)增益控制算法,大大改善了不同環(huán)境、設(shè)備、場(chǎng)景下音量不均勻的問題,比傳統(tǒng)的webrtc agc更加智能。
什么?;現(xiàn)有的webrtc agc算法有什么問題?在《詳解 webrtc 高音質(zhì)低延時(shí)的背后 — agc(自動(dòng)增益控制)》 ;的文章,深入解讀了webrtc agc不同模式的核心原理。基于固定增益模式的擴(kuò)展數(shù)/模自適應(yīng)模式存在響應(yīng)過度和不及時(shí)、補(bǔ)償增益估計(jì)不準(zhǔn)確等穩(wěn)定性問題。我贏了。;這里不展開技術(shù)細(xì)節(jié)。從方向看,webrtc agc s追求改編的目標(biāo)是對(duì)的,也是我們首先需要優(yōu)化的部分。我先來看看我們?cè)诰W(wǎng)上遇到過哪些痛點(diǎn):
(1)音量不均勻的問題在多人會(huì)議中,音頻采集的效果受到設(shè)備差異、環(huán)境、發(fā)言者本人等多種因素的影響。如果只采用固定增益的方案,在聽感上會(huì)出現(xiàn)不同揚(yáng)聲器音量不均勻的問題,持續(xù)的音量過低或突然的音量過大只能通過頻繁調(diào)節(jié)設(shè)備播放音量按鈕來解決。在直播/短視頻之間切換時(shí),難免會(huì)遇到類似的問題。
(2)環(huán)境中的噪音被過度放大。在開放的環(huán)境中,如辦公室和商場(chǎng),當(dāng)說話者打開麥克風(fēng),但沒有。;t說話時(shí),周圍的噪聲很可能被認(rèn)為是揚(yáng)聲器 的聲音。傳統(tǒng)的自適應(yīng)方案會(huì)觸發(fā)增益補(bǔ)償,導(dǎo)致整個(gè)過程噪聲明顯,嚴(yán)重影響會(huì)議和直播的體驗(yàn)。
(3)連麥等娛樂場(chǎng)景的直播,背景音樂波動(dòng)的問題。在連麥等娛樂場(chǎng)景播放背景音樂是很常見的。很多主播會(huì)用聲卡,一般業(yè)務(wù)層選擇關(guān)閉agc,把調(diào)節(jié)音量的權(quán)利交給主播。宏觀上,它可以 t解決不同直播之間音量差異大的問題,主播可以 甚至檢測(cè)不到音爆和低音量。所以這類場(chǎng)景需要開啟agc。而傳統(tǒng)的增益補(bǔ)償策略并沒有區(qū)分人聲和背景音樂,必然會(huì)帶來未來音樂音量的波動(dòng)是觀眾無法接受的,用音樂控制現(xiàn)場(chǎng)是agc面臨的最大挑戰(zhàn)。
因此,魯棒自適應(yīng)模擬/數(shù)字增益是非常基本的,它只能解決(1)中的非均勻音量問題。我們需要添加其他方法或模塊來處理特定場(chǎng)景下的音量問題。
aliagc算法優(yōu)化方向阿里云視頻云音頻技術(shù)團(tuán)隊(duì)為了追求極致的音視頻通話體驗(yàn),agc是音頻3a算法中的最后一個(gè)環(huán)節(jié),我們提出以下要求:
(1)增益補(bǔ)償和自適應(yīng)調(diào)整策略響應(yīng)迅速,實(shí)現(xiàn)二階收斂;
②增益范圍大,可以覆蓋大部分移動(dòng)和pc設(shè)備;
③在噪音、音樂等復(fù)雜場(chǎng)景下,穩(wěn)定性好,不觸發(fā)失調(diào);
(4)功耗低,音質(zhì)無損;
為了實(shí)現(xiàn)上述目標(biāo),我們?cè)趙ebrtc中基于agc框架進(jìn)行了以下主要優(yōu)化(詳見《詳解 webrtc 高音質(zhì)低延時(shí)的背后 — agc(自動(dòng)增益控制)》):
①數(shù)字增益自適應(yīng)方案:新增vad/包絡(luò)檢測(cè)模塊,實(shí)時(shí)計(jì)算音頻信號(hào)音量,用于快速確定最大增益上限,從而指導(dǎo)當(dāng)前數(shù)字增益調(diào)整;
②模擬增益自適應(yīng)方案:基于檢測(cè)到的人聲/噪底量,用于指導(dǎo)模擬增益調(diào)整,使采集到的噪底和人聲音量控制在目標(biāo)范圍內(nèi);
③場(chǎng)景自適應(yīng)方案:增加語音/噪音/音樂等多任務(wù)檢測(cè)模塊,動(dòng)態(tài)估計(jì)當(dāng)前噪音水平、音樂等狀態(tài),用于激活相應(yīng)的調(diào)整策略,使算法適應(yīng)當(dāng)前大多數(shù)應(yīng)用場(chǎng)景。
④音頻統(tǒng)計(jì)數(shù)據(jù)的構(gòu)建:增加了語音/噪音音量統(tǒng)計(jì)、事件檢測(cè)等數(shù)據(jù),為其他模塊提供準(zhǔn)確的數(shù)據(jù)支持。同時(shí),通過數(shù)據(jù)上報(bào)渠道完善了埋點(diǎn),豐富了后臺(tái)儀表盤。
aliagc算法的效果就是基于以上難題。讓 讓我們來看看優(yōu)化的aliagc的效果:
(1)收斂速度快,采集量極小時(shí),需要5s-8s;對(duì)于-30db →- 3db;正常情況下:-20db →-3db只需要3s-5s。
反之,當(dāng)采集量較大,數(shù)字增益嚴(yán)重過剩時(shí),向下調(diào)整的收斂速度也很快。絕大多數(shù)場(chǎng)景基本都是一句話就收斂了。
(2)數(shù)字增益自適應(yīng)更新能力從前面的案例可以看出,初期音量極小(-34db),中后期音量比較大。從輸出結(jié)果可以看出,最終的輸出音量基本都在[-1db,-3db]的目標(biāo)范圍內(nèi),聽感上沒有差別。
讓 讓我們看一個(gè)更極端的例子:聲音由大到小交替變化。如果增益沒有及時(shí)自適應(yīng)調(diào)整,我們會(huì)看到峰值被限幅器拉平,小音量沒有及時(shí)調(diào)高。要在簡單的文章里看到)。優(yōu)化后可以看到整體輸出音量穩(wěn)定,波形保持完好。
同時(shí)我們錄制了一個(gè)多人會(huì)議中參與者f在本地播放的音頻數(shù)據(jù),參與者a到e的最終推送音量基本平衡到-3db左右。對(duì)于參與者f來說,他的主觀聽覺基本相同。
(3)噪聲環(huán)境下的增益控制。類似地,我們選擇了一段在真實(shí)會(huì)議中錄制的流式音頻數(shù)據(jù)。在演講者發(fā)言之前,其他同事正在環(huán)境中開會(huì)。由于傳統(tǒng)自適應(yīng)方案缺乏對(duì)嘈雜環(huán)境的監(jiān)控,其他同事的聲音也大大增加。優(yōu)化后的方案避免了這種情況,自適應(yīng)邏輯只在說話人開始說話時(shí)才被激活,從而避免了周圍嘈雜聲音增益過大的問題。
同時(shí),對(duì)于原始采集的本底噪聲較大,存在嘈雜語音的情況,說話人在說話前增益保持相對(duì)較好,不存在因?yàn)閍gc的增益而導(dǎo)致本底噪聲被大幅放大的問題。當(dāng)說話人開始說話時(shí),觸發(fā)增益的自適應(yīng)調(diào)整,最終增益到合適的位置。
(4)在娛樂現(xiàn)場(chǎng)獲得控制權(quán)。我們選擇了一段主播和背景音樂交替出現(xiàn)的素材。在傳統(tǒng)的增益補(bǔ)償方案中,人聲和音樂是一視同仁的,最終都得到改善,會(huì)發(fā)現(xiàn)背景音樂有波動(dòng)。在優(yōu)化后的方案中,由于音樂檢測(cè)模塊性能良好,會(huì)引導(dǎo)agc控制音樂部分的增益,輸出結(jié)果符合預(yù)期。整體來說,增益只是根據(jù)主播聲音的部分自適應(yīng)的。
全場(chǎng)景適配,aliagc算法的后續(xù)優(yōu)化目標(biāo)。阿里云視頻云音頻技術(shù)團(tuán)隊(duì)提供的音頻3a算法(不限于3a)是alirtc 的推送流。所有的音頻指標(biāo)都不能有明顯的缺點(diǎn),三者在復(fù)雜的應(yīng)用場(chǎng)景中缺一不可,共同影響音頻質(zhì)量和主觀體驗(yàn)。我們可以 不要單獨(dú)優(yōu)化某個(gè)算法。比如agc增益過大,不僅會(huì)增加噪聲,還會(huì)增加對(duì)端收集的回波的非線性成分,影響回波抵消的效果。另外,降噪能力差也會(huì)限制agc能達(dá)到的最大增益上限。同時(shí),在嘈雜的環(huán)境中,我們可以 t單純依靠agc來控制嘈雜的聲音。畢竟檢測(cè)中存在誤檢的可能。如果默認(rèn)使用智能降噪,這類場(chǎng)景下agc的壓力會(huì)大大降低。
在后續(xù)的優(yōu)化中,我們會(huì)根據(jù)場(chǎng)景逐步細(xì)化3a的配置,整體看3a的最終效果。對(duì)于單個(gè)算法的優(yōu)化,各大廠商的差距在縮小,個(gè)性化、差異化的創(chuàng)新顯得尤為重要。一方面,aliagc算法需要積極探索在線badcase,不斷加強(qiáng)穩(wěn)定性建設(shè);另一方面,要深化機(jī)器學(xué)習(xí)、陣列等技術(shù)的探索和應(yīng)用,豐富產(chǎn)品的亮點(diǎn)。
視頻云技術(shù)與應(yīng)用;是你最應(yīng)得的。關(guān)注音視頻技術(shù)的官方賬號(hào),每周推送來自阿里云的實(shí)用技術(shù)文章,在這里與音視頻領(lǐng)域的一流工程師交流。官方賬號(hào)后臺(tái)回復(fù)【技術(shù)】可以加入阿里云視頻云產(chǎn)品技術(shù)交流群,與行業(yè)大咖探討音視頻技術(shù),獲取更多行業(yè)最新資訊。
標(biāo)簽:
增益音量
了解更多自動(dòng)增益控制agc課程設(shè)計(jì)(自動(dòng)增益控制英文縮寫)相關(guān)內(nèi)容請(qǐng)關(guān)注本站點(diǎn)。
華為手環(huán)b2商務(wù)版怎么查找手機(jī),華為手環(huán)2丟了可以定位找回嗎
學(xué)電子商務(wù)需要電腦嗎-(電子商務(wù)專業(yè)需不需要電腦)
hpstatusbl.dll(hppatusg01.dll)
平板怎么切換中英文(平板怎么切換成中文)
手機(jī)怎么刷第三方rec,紅米note2 怎么刷第三方recovery
自動(dòng)增益控制agc課程設(shè)計(jì)(自動(dòng)增益控制英文縮寫)
西安華為電腦維修點(diǎn)查詢,華為電腦維修點(diǎn)查詢附近的地址
怎樣用手機(jī)使用u盤(如何用手機(jī)使用u盤)
小程序意外退出怎么辦理(小程序意外退出怎么解決)
徹底win10關(guān)閉自動(dòng)更新方法(聯(lián)想win10關(guān)閉自動(dòng)更新方法)
什么播放器可以免費(fèi)下載音樂,現(xiàn)在什么播放器可以免費(fèi)下載歌曲
組裝一臺(tái)3000左右的主機(jī)配置(3000價(jià)位的組裝電腦主機(jī))
windows10環(huán)境變量設(shè)置(w10的環(huán)境變量在哪)
2020年什么牌子的電腦好(2021電腦牌子排行榜)
豐田電池價(jià)格,豐田k羅拉電瓶多少錢
大學(xué)生筆記本電腦多少錢合適用,上大學(xué)買筆記本買什么價(jià)位的
windows7專業(yè)版32位激活密鑰(win7專業(yè)版32位永久激活碼)
三星fold和zflip區(qū)別(三星zflip和三星fold哪個(gè)好)
蘋果6電池怎么保養(yǎng)好(蘋果6電池怎么保養(yǎng)和維護(hù))
系統(tǒng)之家win7系統(tǒng)安裝教程(系統(tǒng)之家win7安裝步驟)