在計(jì)算機(jī)語音識(shí)別領(lǐng)域有一個(gè)著名的難題——“雞尾酒會(huì)問題(Cocktail Party Problem)”,說的是當(dāng)前語音識(shí)別技術(shù)已經(jīng)可以以較高精度識(shí)別一個(gè)人所講的話,但是當(dāng)說話的人數(shù)為兩人或者多人時(shí),語音識(shí)別率就會(huì)極大的降低。計(jì)算機(jī)無法將目標(biāo)聲音與其他人同時(shí)發(fā)出的聲音區(qū)別開來。
如今,來自美國(guó)杜克大學(xué)的科學(xué)家們使用一種簡(jiǎn)單的3D打印裝置,巧妙地解決了這個(gè)問題??茖W(xué)家們?yōu)榇嗽凇?/span>Proceedings of the National Academy of Sciences》雜志上發(fā)表了一篇論文介紹了這個(gè)奇妙的3D打印解決方案。
他們首先制造出了一個(gè)又大又厚的3D打印塑料盤,在塑料盤的一面有36個(gè)開口,以及許多蜂窩狀的通道通向塑料盤中心的一個(gè)麥克風(fēng)。它本質(zhì)上是一個(gè)結(jié)合了聲學(xué)超材料和壓縮傳感技術(shù)的單一傳感器聽音系統(tǒng)。
“與以前的研究通常依賴于信號(hào)和語音處理技術(shù)來解決“雞尾酒會(huì)”問題不同,我們提出的方法是一個(gè)獨(dú)特的基于硬件的方法,主要利用了經(jīng)過精心設(shè)計(jì)的聲學(xué)超材料。”研究人員寫道,“我們堅(jiān)信,這一方法不僅能夠解決過去數(shù)十年來各個(gè)領(lǐng)域的研究人員一直孜孜以求的雞尾酒會(huì)聽音問題,而且這種將物理層的設(shè)計(jì)與計(jì)算感知相結(jié)合的系統(tǒng)設(shè)計(jì)方法將會(huì)對(duì)傳統(tǒng)的聲學(xué)傳感和成像方式產(chǎn)生影響。”
這項(xiàng)研究是在Steven Cummer和Yangbo Xie的領(lǐng)導(dǎo)下進(jìn)行的。
那么它的工作原理到底是什么呢?研究人員稱,這36個(gè)通向麥克風(fēng)的通道每個(gè)都有著獨(dú)特的3D打印形狀導(dǎo)致其功能特性有所區(qū)別,使得聲音傳向中心的方式有著微妙的不同,因而可以彼此區(qū)分,并被單個(gè)傳感器接收。Yangbo Xie稱,我們?nèi)祟悷o法區(qū)分其中的差別,但是基于該傳感器的算法幾乎總是可以告訴我們這些聲音是從哪個(gè)想來的。
至于該解決方案的正確性。研究人員在其論文中宣稱:“這款帶有共振超材料緊湊陣列的設(shè)備被證明可以區(qū)分識(shí)別來自三個(gè)獨(dú)立來源的重疊音頻,正確率高達(dá)96.67%。”。這個(gè)簡(jiǎn)單、但有效的方法已被人們譽(yù)為一個(gè)優(yōu)秀的解決方案。不過目前唯一的問題是它的大小——它大約相當(dāng)于一個(gè)很厚的比薩,但是顯然它具有足夠的空間優(yōu)化設(shè)計(jì),并用于進(jìn)一步的應(yīng)用。杜克大學(xué)的科學(xué)家們表示,它可以適用于助聽器等聲學(xué)成像和傳感應(yīng)用,所以我們可能會(huì)在不久的將來看到這項(xiàng)技術(shù)的一個(gè)更小版本。
轉(zhuǎn)載請(qǐng)注明出處。