讓AI更加聰明!西浦智能工程學(xué)院博士生兩項(xiàng)研究獲得國(guó)際認(rèn)可

西交利物浦大學(xué)
2021-2-28 12:55:02 文/馬婷婷 圖/白鵬宇
自人工智能開(kāi)始迅速發(fā)展,“識(shí)別”這項(xiàng)技術(shù)就是關(guān)鍵的一環(huán),無(wú)論是圖像、文本,還是聲音、視頻,計(jì)算機(jī)如何能夠快速地識(shí)別用戶(hù)發(fā)送的信息,并產(chǎn)生反饋,對(duì)于研究者來(lái)說(shuō)是一個(gè)值得挑戰(zhàn)的問(wèn)題。
近期,來(lái)自西交利物浦大學(xué)智能工程學(xué)院的博士生們,在關(guān)于顯著性檢測(cè)和提升場(chǎng)景文字識(shí)別準(zhǔn)確率的兩項(xiàng)研究上獲得了不錯(cuò)的成績(jī)。
識(shí)別性能好、訓(xùn)練效率高:
會(huì)模仿人類(lèi)視覺(jué)鎖定圖像目標(biāo)的
計(jì)算機(jī)算法
近年來(lái),圖片搜索作為一種新的功能,逐漸被應(yīng)用在多個(gè)購(gòu)物平臺(tái)。購(gòu)物者只需要提供一張圖片,系統(tǒng)就能夠從復(fù)雜的背景中推測(cè)出他所想要購(gòu)買(mǎi)的物品,進(jìn)行推薦。在享受便利的同時(shí),你是否也有這樣的疑惑,計(jì)算機(jī)是如何學(xué)會(huì)從圖像數(shù)據(jù)中快速地獲取關(guān)鍵信息的?
圖片源自網(wǎng)絡(luò)。
近日,西交利物浦大學(xué)智能工程學(xué)院博士生團(tuán)隊(duì)使用圖像處理技術(shù)和計(jì)算機(jī)視覺(jué)算法讓計(jì)算機(jī)模擬人的注意力,準(zhǔn)確定位出圖像中最引人注目的前景區(qū)域。這項(xiàng)關(guān)于顯著性檢測(cè)的研究被第35屆AAAI大會(huì)收錄,該項(xiàng)目也獲得了國(guó)家自然科學(xué)基金面上項(xiàng)目的資助。
據(jù)論文的第一作者博士生俞思悅介紹,論文中提出了一種弱監(jiān)督顯著性檢測(cè)的方法,這項(xiàng)技術(shù)可以作為其他圖像識(shí)別與分割技術(shù)的底層預(yù)處理模式,更高效地獲取圖像中的重要信息,在圖片編輯、圖像檢索、目標(biāo)檢測(cè)、機(jī)器人領(lǐng)域也有多種應(yīng)用。
俞思悅的指導(dǎo)老師肖繼民博士表示:“弱監(jiān)督顯著性檢測(cè)是一個(gè)非常前沿的研究方向,同一個(gè)物體在不同圖片里的重要性,即對(duì)人的吸引力,是會(huì)變化的,在前一張圖中最吸引人的物體,下一張可能就變成了背景,所以要教會(huì)計(jì)算機(jī)區(qū)分這種變化也是一個(gè)難點(diǎn)。我們的訓(xùn)練的方法比較簡(jiǎn)單,通過(guò)一次訓(xùn)練就可以得出檢測(cè)結(jié)果,且無(wú)需后續(xù)處理,在多個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,均達(dá)到了最高的性能!
俞思悅解釋說(shuō),“在使用弱監(jiān)督的方法來(lái)訓(xùn)練計(jì)算機(jī)時(shí),只提供給計(jì)算機(jī)有限的信息,例如用幾個(gè)像素點(diǎn)來(lái)代表前景與背景,獲得最終的輸出。相比較于把每個(gè)像素點(diǎn)屬于前景還是背景通過(guò)人工標(biāo)注提供給計(jì)算機(jī)的強(qiáng)監(jiān)督訓(xùn)練方法,弱監(jiān)督能夠節(jié)約時(shí)間和人力,但同時(shí)也更具挑戰(zhàn)性。
上圖紅色線條代表前景,綠色線條代表背景
“弱監(jiān)督訓(xùn)練方法的缺點(diǎn)在于:由于只提供了有限信息,這樣就會(huì)導(dǎo)致結(jié)構(gòu)信息缺失,無(wú)法提供良好的輪廓。所以,通常還需要用別的方法來(lái)補(bǔ)充輪廓,準(zhǔn)確預(yù)測(cè)前景的形狀。”
她進(jìn)一步解釋說(shuō):“之前的一些研究會(huì)用邊緣檢測(cè)等方法來(lái)補(bǔ)充提供物體的輪廓信息,但邊緣檢測(cè)大多是用強(qiáng)監(jiān)督的方法來(lái)訓(xùn)練,一個(gè)像素點(diǎn)是否屬于邊緣,都需要人工標(biāo)注出來(lái)。
“相較之下,我們提出的弱監(jiān)督顯著性檢測(cè)方法能夠利用圖片本身的信息,比如顏色信息或者位置信息來(lái)補(bǔ)全我們需要的這個(gè)物體的一些結(jié)構(gòu)信息,從而得到比較良好的性能,也能在工業(yè)上節(jié)省人力標(biāo)注投入,并且提高計(jì)算機(jī)圖像識(shí)別的準(zhǔn)確率!
上圖為博士生俞思悅提出的學(xué)習(xí)方法
博士生俞思悅的檢測(cè)結(jié)果與其他弱監(jiān)督顯著性檢測(cè)的方法輸出的結(jié)果,左起第三列為俞思悅所在研究團(tuán)隊(duì)的檢測(cè)結(jié)果。
智能工程學(xué)院院長(zhǎng)、俞思悅的指導(dǎo)老師林永義教授表示:“國(guó)際上通常會(huì)以一些頂會(huì)文章來(lái)衡量學(xué)院的科研水平。智能工程學(xué)院近幾年陸續(xù)在人工智能的頂級(jí)會(huì)議CVPR、AAAI、ECCV發(fā)表論文,充分說(shuō)明了我們?cè)贏I領(lǐng)域達(dá)到了國(guó)際上較高的水準(zhǔn)!
如何使文字識(shí)別準(zhǔn)確率更高?
西浦學(xué)者提出場(chǎng)景文字矯正新方法
在國(guó)際會(huì)議上獲獎(jiǎng)
近日,智能工程學(xué)院和蘇州市認(rèn)知計(jì)算應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)研究人員提出了一種場(chǎng)景文字矯正方法,有助于提升場(chǎng)景文字識(shí)別的準(zhǔn)確率,關(guān)于該方法的論文在第二十七屆國(guó)際神經(jīng)信息處理大會(huì)ICONIP 2020上獲獎(jiǎng)。
據(jù)論文的第一作者智能工程學(xué)院博士生李菁介紹,場(chǎng)景文字識(shí)別是指識(shí)別自然場(chǎng)景圖片中的文字,它是模式識(shí)別領(lǐng)域中的一個(gè)重點(diǎn)問(wèn)題,有著廣泛的應(yīng)用,例如識(shí)別快遞單,路牌,街邊店鋪名稱(chēng)等。然而,自然場(chǎng)景中的文字圖片往往具有復(fù)雜的背景、彎曲旋轉(zhuǎn)的文本行和不同大小顏色亮度的字體,給準(zhǔn)確識(shí)別文字帶來(lái)了難度。
生活中常見(jiàn)的場(chǎng)景文字
“我們這次的研究集中在場(chǎng)景文字矯正上,它是在識(shí)別之前的一個(gè)環(huán)節(jié),能夠把不規(guī)則的文本矯正成規(guī)則的文本,讓傾斜或者彎曲的文字先變成一個(gè)比較水平的狀態(tài),從而減小識(shí)別難度,提高準(zhǔn)確率!彼a(bǔ)充道。
上圖左側(cè)為原圖,右側(cè)是矯正后的效果,矯正后的文字更為水平且規(guī)則。
博士生李菁表示,目前的矯正方法主要有兩種:
第一種,矯正和識(shí)別的過(guò)程是完全獨(dú)立的,矯正不考慮識(shí)別的結(jié)果,因此,矯正出來(lái)的圖片可能不利于后續(xù)的識(shí)別;
第二種是端到端識(shí)別,也就是把矯正方法嵌在識(shí)別方法的前端,先矯正后識(shí)別,但是這類(lèi)方法只考慮識(shí)別的結(jié)果,如果識(shí)別的性能好,則默認(rèn)矯正也是好的。然而,這可能會(huì)使矯正模型產(chǎn)生恒等變換,即在文字沒(méi)有得到矯正卻仍被識(shí)別出來(lái)的情況下,矯正模型失效。
針對(duì)這兩種情況,她提出了一個(gè)基于對(duì)抗學(xué)習(xí)的場(chǎng)景文字矯正方法,該方法能夠兼顧識(shí)別效果與矯正性能,盡量避免以上這些問(wèn)題。之后,她將對(duì)嚴(yán)重彎曲的場(chǎng)景文本的矯正和自然場(chǎng)景文本的識(shí)別繼續(xù)進(jìn)行研究。
李菁的指導(dǎo)老師王秋鋒博士指出:“該方法不僅考慮了矯正的性能,還考慮了后續(xù)的識(shí)別效果,能夠更好地為場(chǎng)景文字識(shí)別服務(wù)!
關(guān)于這一方法的論文在第二十七屆國(guó)際神經(jīng)信息處理大會(huì)ICONIP 2020上榮獲Runner-Up論文獎(jiǎng),是該會(huì)議評(píng)選出的4篇獲獎(jiǎng)?wù)撐闹弧?/p>
智能工程學(xué)院科研副院長(zhǎng)、認(rèn)知計(jì)算應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室主任黃開(kāi)竹教授表示:“這是認(rèn)知計(jì)算應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室近年來(lái)獲得的第5個(gè)最佳論文獎(jiǎng),表明該實(shí)驗(yàn)室在人工智能和模式識(shí)別領(lǐng)域的研究水平已經(jīng)得到了國(guó)內(nèi)國(guó)際同行的廣泛認(rèn)可!
蘇州市認(rèn)知計(jì)算應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室依托于西浦智能工程學(xué)院,主要研究方向?yàn)槟J阶R(shí)別,認(rèn)知計(jì)算,機(jī)器學(xué)習(xí)及其在文本,圖像,聲音和視頻中的應(yīng)用。
ICONIP會(huì)議是亞太地區(qū)神經(jīng)網(wǎng)絡(luò)方面的重要會(huì)議之一,此次會(huì)議收錄LNCS論文187篇,接受率為30.3%,其中共評(píng)選4篇獲獎(jiǎng)?wù)撐模謩e為最佳論文獎(jiǎng),Runner-Up論文獎(jiǎng),最佳學(xué)生論文獎(jiǎng),Runner-Up 學(xué)生論文獎(jiǎng)。
記者:金畫(huà)恬
編輯:寇博
圖片提供:俞思悅 李菁
新媒體:俞啟凡
監(jiān)制:袁小婉
西交利物浦大學(xué)2020屆大陸本科畢業(yè)生就業(yè)質(zhì)量報(bào)告
我們15歲了!
西交利物浦大學(xué)15周年校慶創(chuàng)意征集