0
| 本文作者: 付靜 | 2020-08-17 21:24 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
2020 年 8 月 7 日-9 日,2020 全球人工智能和機器人峰會(CCF-GAIR 2020)于深圳舉行。
CCF-GAIR 2020 峰會是由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協辦的全球盛會。大會主題從 2016 年的學產結合,2017 年的產業落地,2018 年的垂直細分,2019 年的人工智能 40 周年,秉承打造國內人工智能和機器人領域規模最大、規格最高、跨界最廣的學術、工業和投資領域盛會。
8 月 8 日上午,在前沿語音技術專場中,西北工業大學智能聲學與臨境通信研究中心教授張雯首先帶來了題為《開放空間聲場主動控制技術》的主題演講。

演講一開始,張雯教授就指出,智能語音交互產品應用領域廣泛,基于揚聲器陣列的開放空間聲場重構與控制應用前景廣闊。
以此為背景,張雯教授主要從空間聲場重構、空間多區域聲場控制以及空間主動噪聲場控制三方面介紹了開放空間聲場主動控制技術。
空間聲場重構方面,張雯教授先是提到了兩種技術:
1. 基于惠更斯原理的波場合成 WFS,這種技術早期比較受關注;
2. 近期更受歡迎的是 Ambisonics 面向場景的編解碼技術,這一技術以聲波輻射模態為基地函數對聲場建模,通過處理經波域轉換后的 Amibisonic 信號實現聲場重構與控制。
隨后,張雯教授談到了空間聲場重構的另一方面——前端聲場處理。實際上,前端聲場處理也有兩個方面,一是寬帶信號的重構,二是對播放環境的補償。在此,張雯教授通過客廳的例子進行了詳細解釋。
空間多區域聲場控制方面,張雯教授也介紹了兩種方法——聲學對比度法(最大化由揚聲器陣列產生的暗區和亮區的聲學差異)和聲壓匹配法(保證亮區的能量足夠大時,還要產生期望的聲場)。
張雯教授表示,多區域聲場技術相對靈活、自由度高、可設計性強,但同時復雜性也很高。因此,對這一技術進行系統評價是一個關鍵:
我們提出了一種對這一系統的可實現性進行評價的理論,基于聲區的位置以及亮區期望重構聲場的信號來得到可實現性系數,越接近 1 實現性越高,越接近 0 表示可實現性越低。
在此基礎之上,張雯教授引出了報告的第三部分——空間主動噪聲控制。
據張雯教授介紹,主動噪聲控制于上世紀 40 年代被發明,是當前最為有效的控制低頻噪聲的手段,其基本原理是以聲消聲。
實際上,與我們的日常生活最貼近的主動噪聲控制案例就包括降噪耳機和汽車場景中的降噪。張雯教授也表示,目前很多汽車廠商都在開發主動噪聲控制,其中最為成熟的是對引擎噪聲的控制,原因在于聲學傳感器和振動傳感器的結合。
通過對汽車降噪案例的詳細解釋,張雯教授認為:
區域內的主動噪聲控制就是結合麥克風陣列、揚聲器陣列以及聲場控制技術實現三維空間區域內的降噪效果。
演講最后,張雯教授從兩個方面提到了最新的工作考量——傳聲器新設計和結合 AI 與分布式聲學的信號處理。
張雯教授總結稱,在信號處理上要關注的是語音信號和噪聲信號的寬帶隨機性質,特別是對中高頻和快速變化信號的跟蹤能力,在這些情況下聲場控制的難度急劇增加,還將有大量的工作待展開。
以下為西北工業大學智能聲學與臨境通信研究中心教授張雯的全部演講內容,雷鋒網作了不改變原意的整理及編輯:
各位嘉賓早上好!非常高興今天能在這里和大家分享一些我們近期的工作,我今天報告的主題是開放空間聲場主動控制技術。
眾所周知,當下智能語音交互產品形態眾多,數目呈指數增長,應用領域非常廣泛,產品線涉及到手機終端、智能可穿戴設備、智能音響、智能大屏、智能家居以及車載環境內的導航交互等等。實際的語音交互環境是非常復雜的,比如說聲源可能處于近場或是遠場,同一環境下可能存在多個聲源,有干擾、噪聲和混響等等。
在前端處理方面,目前采用麥克風陣列和揚聲器陣列相結合的多通道語音通信系統,這是一種被廣泛采用的智能語音交互方案。接收端,我們通常采用麥克風陣列進行遠場識音和前端的語音增強。同樣,在聲音的播放端,也有越來越多的產品采用多個揚聲器,也就是揚聲器陣列進行真實自然的聲場回放。它的主要目的在于,一方面增強語音的音效,另一方面添加空間聲的聽感。
這種多通道的語音通信系統被應用于各種應用,比如說會議系統、車載通信以及一些新興的產品,比如說智能音響、智能大屏等等,這樣的系統希望給用戶提供兩方面極致的體驗,一方面是解放用戶的雙手,實現免提通信;另一方面想給用戶提供身臨其境的通信感。
今天的報告主要是關注聲音的播放端,也就是基于揚聲器陣列的開放空間聲場控制,它有著非常廣泛的應用前景。
大家最熟悉的就是家庭影院場景,客廳里可以使用多個揚聲器來構建環繞的音效感,我們甚至可以重放錄制的場景,比如說音樂廳、演播廳等。隨著技術的不斷發展,我們在這個領域開始有了一些新的嘗試,比如說可以用一個揚聲器陣列在開放空間控制多個區域的聲場,我們將其叫做多區域聲場控制,或是開放空間下形成的個人聲區,這是沒有任何障礙物的。
我們這里展示的是一個在開放的辦公室里,用一個陣列同時控制三個區域。這樣的技術可以用于各種開放共享的環境,比如說開放辦公室、展會大廳以及車載環境。
車載環境是一個非常典型的復雜聲場,首先用戶自己在播放聲音,其次汽車在行駛的過程中也會遇到各種各樣的噪聲,因此我們要對噪聲進行抑制,目的就是在駕駛員和乘客的頭部位置構建自己的聲區。
基于聲場控制我們還有一些新的應用,比如說智能家居的噪聲控制,也就是說,基于聲場控制我們可以抑制噪聲向外的輻射。其應用場景比如廚房中的抽油煙機。
今天的報告主要有三個部分,將從最簡單、成熟的單區域聲場重構技術展開。
單區域聲場重構,顧名思義就是在空間的一個區域內控制聲場。聲場是聲波在空間形成的,可以用波動方程進行描述和建模,比如一個區域內聲壓和空間表述決定,所以我們只要通過控制這些量,就可以實現一個區域里的聲場重構。通常在這個技術中,我們忽略了傾聽者本身的身體反射。
這個領域的兩個比較重要的技術,一是 WFS 波場合成,二是 Ambisonics 技術。這兩項技術的基本原理都是對區域內的聲場進行建模,然后通過模型來控制產生的聲場。
具體來講,波場合成是基于惠更斯原理。點聲源產生的波震面可以看成是很多次級聲源組成的,次級聲源產生的波陣面之和在每個時刻都等同于初始的聲波,產生聲波的波速和頻率與原始聲波是完全相同的,這就是基礎的建模思路。所以我們只要把揚聲器陣列放在波震面上,同時讓揚聲器陣列的輸出信號等同于次級聲源的信號,從而形成虛擬聲源,產生音效。
這個技術聽上去比較簡單,事實上在執行過程中有一些限制,一方面需要波陣列的結構,另一方面需要知道每一點刺激聲源的信號,同時在具體實施中通常都要通過構建大型的揚聲器陣列來實現。
這個技術在早期比較受關注,近期更為受到歡迎的是 Ambisonics 技術,Ambisonics 用波動方程的基本解來對聲場進行建模,基本解有兩部分,一是隨角度變化的球形函數,同時球形函數在球面上是一組正交基,另外一個是球貝塞爾函數。最終是把一個聲場轉為一組系數,重構系數就可以進行聲場重構,同樣的道理,可以通過控制系數來控制一個區域內的聲場,這是一些基本原理。
所以單區域聲場重構就是物理意義上的準確重構聲場,一方面是發聲單元揚聲器的布置,包括揚聲器作為個體的設計以及多個揚聲器作為一個陣列的設計,我們這里展示的是實驗室構建的大型揚聲器陣列,包括代爾夫特理工大學構建的 128 通道的 WFS 系統和柏林工業大學構建的一個 832 通道的 WFS 系統。可以看到,WFS 系統通常都是基于大型揚聲器陣列的,早期都是在實驗室實現的。
目前,Ambisonics 系數已經被寫到最新的空間聲的音效中,可以通過非常好的數學理論實現,近年來受到了追捧。我們這里展示的是澳洲國立大學搭建的 32 通道的高階 Ambisonics 系統,以及我們學校搭建的 64 通道的高階 Ambisonics 系統。
空間聲場重構的另一方面就是前端聲場處理,同樣也有兩個方面。
一是我們重構的是寬帶的語音信號,所以我們處理的是寬帶信號的重構,這方面很多公司已經做了很多的基礎研究,已經做得很好了。
另一方面我們要考慮重構環境的影響,比如說我們以客廳為例。在房間內構建家庭影院,房間本身是有混響的,而且混響有一定的聲學特性,會導致重構性有所下降。如果我們需要對重構性進行補償的話,將是比較復雜的處理系統,目前大多數商業系統都沒有考慮對播放環境的補償。
所以我們在實驗室針對重構環境的混響和時變聲學特性,提出了多域的自適應信號處理,跟蹤房間的聲學系統的變化,并進行主動補償。
我們在此展示的是補償前和補償后的效果圖。

我們這里希望在白色圓線包圍的區域里產生由虛擬源產生的聲波,這里畫的是波震面,四個軸代表房間的四面墻。如果不對它進行任何處理的話,房間早期的反射和混響就會使得我們重構的聲場遠離目標聲場,所以我們要實時跟蹤環境并進行補償。
接下來更為動態的展示是帶有主動房間補償的空間聲場重構,這里展示的是杜比 5.1 和基于揚聲器陣列的系統。

杜比 5.1是 5 個白圈展示的揚聲器位置,白色區域是控制區,我們希望產生來自于某個虛擬源對應的聲波,只有這個來路方向會進入到控制區域,而其他的早期反射把它補償掉。所以揚聲器放了兩個信號,一個是要產生期望聲場,另外一個是要主動補償到房間環境。
基于揚聲器陣列也是一樣的道理,通過增加揚聲器的數量可以實現更為精準的控制,比如這里產生的不是點聲源而是平面波,其他早期的反射和混響會被主動補償掉。
在這個基礎上,我們首次提出了空間多區域聲場控制技術,也就是用一個揚聲器陣列同時控制多個區域的聲場。典型的應用包括在各種公共環境下產生個人聲區,以及在嘈雜的環境下產生靜區。
同樣有兩個示例,這里第一個示例是可以在兩個聲區產生兩個獨立的聲場。

外面的黑圈是揚聲器陣列,中間兩個小圈是想產生聲場的兩個區域。兩個聲波來自于不同的方向,是相互獨立的。
二是由一個揚聲器陣列產生的兩種聲區。

產生的兩個區域中,一個是亮區,能量比較大;一個是暗區,能量比較小,我們也稱之為靜區。在暗區內有一個用戶,可以實時移動麥克風,我們可以實時跟蹤他,產生安靜的區域。
所以多區聲場控制也有兩種方法。一是聲學對比度法,也就是最大化暗區和亮區的聲學差異。另外一個是聲壓匹配法,即在保證亮區的能量足夠大時,還希望產生期望的聲場。
多區域聲場技術相對比較靈活、自由度很高、可設計性很強,但同時復雜性也很高。所以我們在這個方面的研究,除了提出技術本身的應用場景,我們還提出是否可以對這個技術進行系統評價。
我們提出了一種怎樣對這一系統的可實現性進行評價的理論,基于聲區的位置以及亮區期望重構聲場的信號來得到可實現性系數(在 0 和 1 之間),越接近 1 實現性越高,越接近 0 表示可實現性越低。
比方說,兩個聲區中,亮區重構聲波的來波方向跟兩個聲區的連線方向是垂直的,這種情況下它的可實現性比較強。如果聲波的來波方向和兩個方向是一致的,不可避免的結果便是兩個聲區之間有相互的干擾,可實現性也就會比較低。實際上我們現在舉的例子比較簡單,這個理論可以應用于各種場景。
同時,我們在實驗室還構建了多區域聲場控制的初步演示系統。
基于此,如果我們能控制一個區域內的多聲場,可以在嘈雜環境中產生一個安靜的區域,那么我們是否可以做一些在開放空間的主動噪聲控制技術,也就是在一個區域內進行主動噪聲控制。
到目前為止,主動噪聲控制是最為有效的控制低頻噪聲的手段,基本原理是以聲消聲。

也就是說,我們有一個主噪聲源,同時有一個次級聲源,揚聲器在兩個聲波疊加的時候可以達到噪聲抑制的目的。主動噪聲控制是上個世紀 40 年代發明的,目前已經成功應用于一些產品中,其中大家最為熟知的就是降噪耳機。

降噪耳機的結構通常是,耳機外面是參考麥克風,用來收錄主噪聲的參考信號;靠近耳朵一端會布置次級聲源和誤差麥克風,誤差麥克風是我們的控制點。如果誤差麥克風達到降噪效果,進入耳朵的能量就非常小,耳機就可以達到降噪的目的。
這一系統同時還涉及到前饋控制和反饋控制,利用參考麥克風信號和誤差麥克風信號控制次級聲源發出的次級噪聲。
可見,其原理是比較簡單的,但在具體執行過程中主要的難點和痛點就是噪聲的特性。噪聲具有寬帶非平穩和快速變化的特性,次級聲源和誤差麥克風離得很近,離我們的耳朵也很近,所以整個系統的處理時間非常少,我們對系統的實時性要求非常高,也是整個系統最大的難點問題。
商業應用中,我們已經看到很多成功的降噪耳機。目前科研界和企業界關注的另一個點是能否可以把這個技術應用到開放空間的主動噪聲控制,一個典型應用場景就是汽車。

汽車在行駛過程中有各種各樣的噪聲,包括路噪、胎噪、風噪、引擎噪聲等。所以目前很多的車商都在開發汽車座艙的主動噪聲控制,相對而言比較成熟的就是對引擎噪聲的控制。
它的基本原理是,在離駕駛員和乘客頭部比較近的區域布置一些麥克風陣列,比如誤差麥克風。我們要在這些點上進行控制,離用戶比較近,用戶聽到的聲音也就比較小。比如說在汽車的車頂或座位上,用汽車自帶的播放系統播放次級噪聲。
之所以引擎噪聲比較容易控制,是因為可以結合聲學傳感器和振動傳感器。振動傳感器可以放在引擎端監測噪聲,可以提前獲取一些主噪聲的參考來設計系統。而其他噪聲,比如路噪、風噪、胎噪更加寬帶,變化更加快且具有中高頻的特點,目前只能用一些聲學傳感器進行監測。
區域內的主動噪聲控制就是結合麥克風陣列、揚聲器陣列以及聲場控制技術實現三維空間區域內的降噪效果。
這里有一個展示,最外圈的藍線是揚聲器陣列,紅線所包圍的區域就是控制區域。我們可以在這個區域的便捷來布置一些麥克風。這里畫的是波震面,黑色和白色分別代表幅度正一和負一。

整個系統收斂之后,中間區域的幅度會比較小,接近于零。
我們實際上也完成了車內實測數據的驗證。我們用球形麥克風陣列放在乘客頭部位置收錄一些噪聲,包括引擎的噪聲、空調噪聲以及不同路況的噪聲,并在實驗室對這些噪聲進行分析,得到所需的降噪信號。

我們把得到的信號再從車載的系統中放出來,在一個環境下測試我們的降噪效果,基本 500 赫茲以下可以實現 15-20 dB 的降噪效果。
基于同樣的原理,我們是否可以基于聲場控制,來控制噪聲向外的輻射?這里有一個展示。

中間白色的揚聲器是我們的主噪聲,外面三個藍的揚聲器是次級噪聲。主噪聲是三個協作聲量,環境內的聲量達到了 78 分貝。外面一圈是誤差麥克風,我們可以基于麥克風的數據進行控制。
次級噪聲發出反噪聲信號之后,把主噪聲分量進行一致,整個環境中的主噪聲就降低到了 68 分貝。我們再把次級噪聲放回去,可以達到相同的降噪量,大概 68 分貝。
這是一個自適應的系統,是很簡單的展示,主要是在考量未來是否可以控制智能家居向外輻射的噪聲。
總體來說,開放空間聲場控制有廣闊的應用場景,但目前存在很多的難點。
一方面,計算復雜度隨著次級聲源數目和傳感器數目的增加而急劇增加;同時,開放空間聲場控制,特別是噪聲控制對實時性的要求比較高;為了達到精準的效果還要做在線的聲學路徑估計,會進一步增加系統的復雜度;最為關鍵的痛點問題是寬帶非平穩噪聲和中高頻信號的追蹤能力。
在這一方面我們也有一些最新的工作、最新的考量,依然是從兩個方面出發:一是傳聲器陣列設計,二是前端信號處理。
在傳聲器設計當中,我們提出了一種新的揚聲器的設計方法,即指向性揚聲器。傳統的信號處理通常把揚聲器建模為 3D 空間的點聲源,具有全指向性的輻射特性。這種輻射具有不可控性,整個系統的復雜度比較大,要用多個傳聲器才能達到同樣的效果。
所以我們在想,是否可以構建一個具有可變指向性的傳聲器,多個揚聲器放在一個系統上,可以控制向外空間的指向性,甚至可以控制陣列內部和外部聲場進而有效抑制混響,相當于在發聲端做了波束形成技術。
那么該怎樣做聯合優化?比如說有多個陣列,我們希望其內部實現特定的聲場,同時向外輻射盡可能小,小到不會引起混響,我們就不用考慮播放環境對系統的影響,也就不需要再做一些在線的聲學估計了。
在信號處理方面,我們也有一些最新的嘗試,比如說結合 AI 做基于 Deep ANC 的非線性主動噪聲控制,我們也可以學習一些噪聲的特性,這樣我們可以使整個系統具有更快的收斂能力和更強的噪聲跟蹤能力。
另外一個工作是基于分布式的聲場控制,基本原理是把一個大型的多通道系統拆分成多個小型系統,這樣的話我們就可以降低整個系統的運載負荷、提高系統跟蹤噪聲的能力,但弊端是收斂性有所減慢。
總體上看,開放空間聲場控制是使用多個揚聲器控制一個區域或是多個區域的聲場,具有可設計性強、成本低、靈活性高的特點,有廣闊的應用場景和市場空間。主要針對的是大區域、多區域混響環境下的聲場控制,這個情況下有兩方面,一個是傳聲器、傳感器陣列的新設計本身起了非常重要的作用。信號處理方面,我們需要關注的是語音信號和噪聲信號的寬帶隨機性質,特別是中高頻信號和快速變化信號的跟蹤能力。在這種情況下整個聲場控制的難度是急劇增加的,我們在嘗試結合人工智能、分布式處理的工作,還有大量的工作有待展開,感謝大家的聆聽。
雷鋒網雷鋒網雷鋒網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。