昆杜人在國際頂級語音科技盛會上綻放光芒

昆山杜克大學(xué)
2020-12-09 21:12:38 文/李清雅 圖/史梓涵
文 | 高歌
線上國際語音科技盛會 Interspeech 2020已于近日圓滿落下帷幕 ,昆山杜克大學(xué)的學(xué)者和學(xué)子們也在這場業(yè)界頂級的學(xué)術(shù)交流活動中大放異彩。研究團(tuán)隊(duì)不僅在大會上設(shè)立的無畏挑戰(zhàn)賽中斬獲獎項(xiàng),也與來自許多知名研究機(jī)構(gòu)的學(xué)者們在不同技術(shù)領(lǐng)域分享了自己的學(xué)術(shù)成果。此外,昆山杜克大學(xué)電子與計(jì)算機(jī)工程副教授李明博士和許多學(xué)生志愿者們在多個層面上參與了大會的組織,貢獻(xiàn)了不可缺少的力量。
大會上,來自微軟、亞馬遜、滴滴和牛津大學(xué)等各大業(yè)界研發(fā)型企業(yè)與學(xué)術(shù)機(jī)構(gòu)的1950余名研究者們呈現(xiàn)并交流他們的最新學(xué)術(shù)成果。為了使學(xué)者們聚焦于領(lǐng)域內(nèi)一些重點(diǎn)研究方向,大會的組織者們還舉辦了九項(xiàng)覆蓋不同技術(shù)領(lǐng)域的挑戰(zhàn)賽以評選各個團(tuán)隊(duì)構(gòu)建的語音識別系統(tǒng)。
在強(qiáng)手如云的無畏挑戰(zhàn)賽第二階段,李明博士帶領(lǐng)的昆山杜克語音與多模式智能信息處理實(shí)驗(yàn)室團(tuán)隊(duì)(DKU SMIIP Lab,Speech and Multimodal Intelligent Information Processing)提出的基于深度殘差網(wǎng)絡(luò)(ResNet) 和長短期記憶網(wǎng)絡(luò)(Long Short Term Memory) 的系統(tǒng),擊敗了德國帕德博恩大學(xué)和 Vivo 等六名強(qiáng)勁對手,并獲得了說話人識別模塊的第一名和說話人活動檢測模塊的第三名。
此次會議共接收有效論文投稿總數(shù)2140篇,錄取1022篇,覆蓋語音、信號處理、口語語言處理等多個方面。在會議期間設(shè)立的各項(xiàng)賽事都有亞馬遜、中國科學(xué)院、微軟、卡耐基梅隆大學(xué)和牛津大學(xué)等知名研究機(jī)構(gòu)的參與。
什么是Interspeech?
Interspeech 是由國際語音通信協(xié)會ISCA (International Speech Communication Association)組織的語音研究領(lǐng)域的頂級會議之一, 在計(jì)算機(jī)語音信號處理領(lǐng)域與 ICASSP (International Conference on Acoustics, Speech and Signal Processing) 并列被廣泛認(rèn)為是全球水平最高的盛會。以往每年都有來自超過一千名學(xué)者和研發(fā)人員的六百多份論文在這項(xiàng)大會上發(fā)表,被業(yè)界廣泛認(rèn)可的專家也會參與大會進(jìn)行交流。今年由于疫情的原因,原本計(jì)劃在上海舉辦的 Interspeech 2020 改為線上舉行。
什么是無畏挑戰(zhàn)賽?
無畏挑戰(zhàn)賽(Fearless Steps Challenge) 是 Interspeech 2020 設(shè)立的數(shù)種賽事之一,最早由德州大學(xué)達(dá)拉斯分校的魯棒語音研究中心(Center for Robust Speech System) 創(chuàng)立。這項(xiàng)從2019年開始舉辦的賽事注重對于自然性的大數(shù)據(jù)語料庫的數(shù)字化、恢復(fù)、和差異化處理。在今年的第二階段挑戰(zhàn)賽上,參賽者們被要求在單通道監(jiān)督式學(xué)習(xí)策略這一方法的基礎(chǔ)上搭建出優(yōu)質(zhì)的語音處理系統(tǒng)。
我們通常所說的語音處理在技術(shù)上分為幾個板塊。如果要把一段音頻分析成可用的信息,我們不僅需要把語音轉(zhuǎn)換成文本的能力,也需要區(qū)分不同說話人、有人聲音頻段與無人聲音頻段、人聲和背景音等技術(shù)。由李明博士帶領(lǐng)的團(tuán)隊(duì)在這次無畏挑戰(zhàn)賽中贏得了說話人識別和說話人活動檢測這兩個子賽事的獎項(xiàng)。
與作為基準(zhǔn)的長短期記憶網(wǎng)絡(luò)系統(tǒng)相比,DKU SMIIP Lab 團(tuán)隊(duì)所構(gòu)建的將深度殘差網(wǎng)絡(luò)與長短期記憶融合的系統(tǒng),可以在后端更容易地捕捉語音里的連續(xù)信息,并能把最小檢測代價降低到基準(zhǔn)系統(tǒng)的62%。
其他賽事參與與發(fā)表
遠(yuǎn)場說話人確認(rèn)挑戰(zhàn)賽是這次學(xué)術(shù)會議里的另一項(xiàng)重量級賽事,由李明博士在內(nèi)的多名學(xué)術(shù)專家組成的委員會負(fù)責(zé)組織和制定賽事規(guī)則以及設(shè)定基準(zhǔn)系統(tǒng)。遠(yuǎn)場聲紋識別技術(shù)是指當(dāng)說話人與機(jī)器處于1-10米間的距離時由機(jī)器識別人類身份的技術(shù),常見的場景有車載音響、會議室和智能家居等。由于在遠(yuǎn)場條件下一般會出現(xiàn)收音效果不理想、說話人數(shù)量多、背景音過重等困難,如何提高遠(yuǎn)場人機(jī)交互的效率一向是個有挑戰(zhàn)性的任務(wù)。
由李明博士帶領(lǐng)的昆山杜克團(tuán)隊(duì)一直致力于基于深度學(xué)習(xí)的遠(yuǎn)場識別關(guān)鍵技術(shù)研究。從2019年開始,團(tuán)隊(duì)與瀾起電子科技(昆山)有限公司進(jìn)行合作,在自身的高性能遠(yuǎn)場語音喚醒算法基礎(chǔ)上共同進(jìn)行了嵌入式系統(tǒng)驗(yàn)證,硬件 FPGA 架構(gòu)設(shè)計(jì),定點(diǎn)方案對比等方面的研究工作。雙方的有關(guān)遠(yuǎn)場環(huán)境內(nèi)小足跡關(guān)鍵詞識別技術(shù)提升的合作成果,也在這次 Interspeech 2020 上成功發(fā)表。
除此之外,昆山杜克大學(xué)的研究團(tuán)隊(duì)還在這次會議上發(fā)表了另外兩項(xiàng)研究成果。在語音分段標(biāo)記這一領(lǐng)域中,團(tuán)隊(duì)與中山大學(xué)的研究人員合作并提出了兩種基于自注意力機(jī)制的方法來尋找語音序列中相似的說話人嵌入,從而大大提高了系統(tǒng)的準(zhǔn)確度與效率。另外,團(tuán)隊(duì)還開發(fā)了基于自注意力機(jī)制的深度卷積神經(jīng)網(wǎng)絡(luò)來處理在現(xiàn)實(shí)環(huán)境下的目標(biāo)說話人分離,即能使機(jī)器具備人類在嘈雜環(huán)境中專注于一個特定人的談話的“雞尾酒會效應(yīng)” 。
多層次的參與,多彩的熱情
在這次 Interspeech 2020 舉辦期間,不同的昆杜人展現(xiàn)了不一樣的風(fēng)采。數(shù)據(jù)科學(xué)研究中心的李明博士不僅參與組織了遠(yuǎn)場說話人確認(rèn)挑戰(zhàn)賽這一重要賽事,還代表昆山杜克大學(xué)與滴滴出行、天津大學(xué)聯(lián)合打造了在線上舉行的 Interspeech 2020 Satellite Workshop(Spoken Language Interaction for Mobile Transportation System,SLIMTS2020)。除此之外,李明博士還擔(dān)任了會議上說話人與語種識別方向的領(lǐng)域主席。
對于這次特殊形勢下舉辦的國際語音盛會和昆杜學(xué)子的表現(xiàn),李明博士這樣評價:“本次 Interspeech 2020 學(xué)術(shù)會議經(jīng)歷了線下舉辦、線下線上融合舉辦、到純線上舉辦的一波三折,不過在大會組委會的卓越工作和辛苦努力之下,我們得以如期和全球的語音界學(xué)者相會,交流工作,非常難得。也非常高興看到除了研究團(tuán)隊(duì)之外,昆山杜克的本科生也越來越多地參與到了國際一流學(xué)術(shù)會議中,期待未來更多的昆杜學(xué)子在國際一流的學(xué)術(shù)舞臺上綻放光彩”。
李明博士(左一)在實(shí)驗(yàn)室
在這次大會上,不僅 SMIIP Lab 的研究生們展示了他們的研究結(jié)果,昆山杜克大學(xué)的本科生們也積極做出了他們的貢獻(xiàn)。我校大三學(xué)生朱庭龍?jiān)诟綄俟ぷ鞣簧习l(fā)表了自己關(guān)于計(jì)算機(jī)視覺模型在聲紋領(lǐng)域應(yīng)用的研究。作為極少數(shù)在本科階段就能在業(yè)界頂級的學(xué)術(shù)會議上發(fā)表論文的學(xué)生,他感慨道:“在這個精英云集的大會上不僅能學(xué)到為語音識別量身定做的一些技術(shù)方法,甚至還能看到計(jì)算機(jī)視覺(CV)、自然語言處理(NLP)還有物理的一些偏基礎(chǔ)的知識回顧。新想法的誕生和新技術(shù)背景下舊想法的再討論在會場上交相輝映。我很幸運(yùn)能從這次大會接觸到業(yè)界最前沿的研究趨勢!
朱庭龍
幕后英雄
在參與學(xué)術(shù)討論之外,昆杜學(xué)子們還積極參與了會議的組織與運(yùn)轉(zhuǎn)。在本次會議中,昆山杜克派出了龔緒晨、儲黃瑞、居然等十名學(xué)生擔(dān)任大會志愿者。在經(jīng)歷了漫長的會前準(zhǔn)備和會議時期繁忙的工作后,儲黃瑞有感而發(fā) :“很榮幸能在本科階段就接觸這種國際頂尖的大會。在做志愿者的過程中,我理解了舉辦一場大會背后是許多人的付出。為了讓大會的質(zhì)量和效果都達(dá)到最好,需要志愿者對投遞的視頻進(jìn)行嚴(yán)格的審核,以及與演講者積極的溝通。非常感謝這次志愿者活動給我?guī)斫佑|行業(yè)大牛的機(jī)會!
參與活動的昆山杜克志愿者們
龔緒晨也說道:“很榮幸能作為志愿者親歷 Interspeech 的舉辦。視頻的審核整理、和作者及主席的預(yù)演、會議進(jìn)行中對主席的后臺支持,這一系列工作讓我了解到一場會議對流程精準(zhǔn)度的嚴(yán)格要求,以及會議籌備所需要的嚴(yán)謹(jǐn)。同時,在會上能有和業(yè)界大牛對話的機(jī)會,這對我來說是很大的眼界的拓展!
希望在明年的 Interspeech 大會上,我們依然能看到昆山杜克大學(xué)的研究團(tuán)隊(duì)在會場上創(chuàng)造佳績,也希望更多的昆山杜克人能參與到此類的學(xué)術(shù)盛會中。
推薦閱讀
關(guān)于中國衰弱人群的思考
是什么讓小鼠深陷憂郁,又是什么令他們重獲快樂?
高貴、邪惡與天資:歷史上對抑郁癥的認(rèn)知變化
▲向上滑動
昆山杜克大學(xué)
杜克教育 中美經(jīng)歷 國際視野
dukekunshan
昆山杜克大學(xué)
Duke_Kunshan
長按右方二維碼
關(guān)注我們