當(dāng)人類(lèi)看一個(gè)場(chǎng)景時(shí),他們看到的是物體和它們之間的關(guān)系。在桌子上面,可能有一臺(tái)筆記本電腦,人坐在手機(jī)的左邊,而手機(jī)在電腦顯示器的前面。許多深度學(xué)習(xí)模型在以這種方式看世界時(shí)很吃力,因?yàn)樗鼈儾涣私鈫蝹€(gè)物體之間的糾纏關(guān)系。如果不了解這些關(guān)系,一個(gè)旨在幫助廚房里的幫廚機(jī)器人將很難遵循"拿起爐子左邊的鏟子,把它放在砧板上"這樣的命令。
為了解決這個(gè)問(wèn)題,麻省理工學(xué)院的研究人員開(kāi)發(fā)了一個(gè)模型,可以理解場(chǎng)景中物體之間的基本關(guān)系。他們的模型每次都代表單個(gè)關(guān)系,然后結(jié)合這些代表來(lái)描述整個(gè)場(chǎng)景。這使得該模型能夠從文本描述中生成更準(zhǔn)確的圖像,即使場(chǎng)景中包括幾個(gè)以不同關(guān)系排列的物體。
這項(xiàng)工作可以應(yīng)用于工業(yè)機(jī)器人必須執(zhí)行復(fù)雜的、多步驟的操縱任務(wù)的情況,如在倉(cāng)庫(kù)中堆放物品或組裝電器。它還使該領(lǐng)域向著使機(jī)器能夠像人類(lèi)一樣從環(huán)境中學(xué)習(xí)并與環(huán)境互動(dòng)的方向邁進(jìn)了一步。
研究人員開(kāi)發(fā)的框架可以根據(jù)對(duì)物體及其關(guān)系的文字描述生成一個(gè)場(chǎng)景的圖像,在這個(gè)圖中,研究人員的最終圖像在右邊,并正確地遵循了文字描述。
"當(dāng)我看著一張桌子時(shí),我不能說(shuō)在XYZ位置有一個(gè)物體。我們的頭腦不是這樣工作的。在我們的頭腦中,當(dāng)我們理解一個(gè)場(chǎng)景時(shí),我們真正理解它是基于物體之間的關(guān)系。我們認(rèn)為,通過(guò)建立一個(gè)能夠理解物體之間關(guān)系的系統(tǒng),我們可以利用該系統(tǒng)更有效地操縱和改變我們的環(huán)境,"計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(CSAIL)的博士生、該論文的共同主要作者杜一倫(音譯)說(shuō)。
杜一倫與共同第一作者、CSAIL博士生李爽(音譯)和伊利諾伊大學(xué)香檳分校研究生劉楠(音譯),以及腦與認(rèn)知科學(xué)系認(rèn)知科學(xué)與計(jì)算專業(yè)保羅-E-牛頓職業(yè)發(fā)展教授、CSAIL成員Joshua B. Tenenbaum,以及資深作者、電氣工程與計(jì)算機(jī)科學(xué)專業(yè)德?tīng)査娮咏淌?、CSAIL成員Antonio Torralba共同撰寫(xiě)了該論文。這項(xiàng)研究將在12月舉行的神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表。
他們的系統(tǒng)會(huì)將這些句子分解成兩個(gè)較小的片段,描述每個(gè)單獨(dú)的關(guān)系("一張木桌在藍(lán)色凳子的左邊"和"一張紅色沙發(fā)在藍(lán)色凳子的右邊"),然后對(duì)每個(gè)部分單獨(dú)建模。然后通過(guò)一個(gè)優(yōu)化過(guò)程將這些部分結(jié)合起來(lái),生成一個(gè)場(chǎng)景的圖像。
研究人員使用了一種叫做基于能量的模型的機(jī)器學(xué)習(xí)技術(shù)來(lái)表示場(chǎng)景描述中的各個(gè)物體關(guān)系。這種技術(shù)使他們能夠使用一個(gè)基于能量的模型對(duì)每個(gè)關(guān)系描述進(jìn)行編碼,然后以一種推斷所有物體和關(guān)系的方式將它們組合起來(lái)。
李解釋說(shuō),通過(guò)將每個(gè)關(guān)系的句子分解成更短的片段,系統(tǒng)可以以各種方式重新組合它們,因此它能夠更好地適應(yīng)它以前沒(méi)有見(jiàn)過(guò)的場(chǎng)景描述。
"其他系統(tǒng)會(huì)從整體上考慮所有的關(guān)系,并從描述中一次性生成圖像。然而,當(dāng)我們有分布之外的描述時(shí),比如有更多關(guān)系的描述時(shí),這樣的方法就會(huì)失敗,因?yàn)檫@些模型不能真正適應(yīng)一次就能生成包含更多關(guān)系的圖像。然而,由于我們將這些單獨(dú)的、較小的模型組合在一起,我們可以對(duì)更多的關(guān)系進(jìn)行建模,并適應(yīng)新穎的組合,"杜說(shuō)。
該系統(tǒng)還可以反向工作--給定一張圖像,它可以找到與場(chǎng)景中物體之間關(guān)系相匹配的文本描述。此外,他們的模型可以用來(lái)編輯圖像,重新安排場(chǎng)景中的物體,使它們與新的描述相匹配。
理解復(fù)雜場(chǎng)景
研究人員將他們的模型與其他深度學(xué)習(xí)方法進(jìn)行了比較,這些方法得到了文本描述,并負(fù)責(zé)生成顯示相應(yīng)物體及其關(guān)系的圖像。在每一種情況下,他們的模型都優(yōu)于基線。
他們還要求人類(lèi)評(píng)估所生成的圖像是否與原始場(chǎng)景描述相符。在最復(fù)雜的例子中,描述包含三種關(guān)系,91%的參與者認(rèn)為新模型的表現(xiàn)更好。
"我們發(fā)現(xiàn)的一個(gè)有趣的事情是,對(duì)于我們的模型,我們可以把句子從有一個(gè)關(guān)系描述增加到有兩個(gè),或三個(gè),甚至四個(gè)描述,而且我們的方法繼續(xù)能夠生成被這些描述正確描述的圖像,而其他方法則失敗了,"杜說(shuō)。
研究人員還向模型展示了它以前沒(méi)有見(jiàn)過(guò)的場(chǎng)景圖像,以及每張圖像的幾種不同的文字描述,它能夠成功地識(shí)別出最符合圖像中物體關(guān)系的描述。
當(dāng)研究人員給系統(tǒng)提供兩個(gè)描述同一圖像但方式不同的關(guān)系型場(chǎng)景描述時(shí),該模型能夠理解這些描述是等同的。
研究人員對(duì)他們的模型的魯棒性印象深刻,特別是在處理它以前沒(méi)有遇到過(guò)的描述時(shí)。
"這是非常有希望的,因?yàn)檫@更接近于人類(lèi)的工作方式。人類(lèi)可能只看到幾個(gè)例子,但我們可以從這幾個(gè)例子中提取有用的信息,并把它們結(jié)合起來(lái),創(chuàng)造出無(wú)限的組合。而我們的模型有這樣一個(gè)特性,使它能夠從較少的數(shù)據(jù)中學(xué)習(xí),但卻能概括到更復(fù)雜的場(chǎng)景或圖像代。"李說(shuō)。
雖然這些早期結(jié)果令人鼓舞,但研究人員希望看到他們的模型在真實(shí)世界的圖像上表現(xiàn)如何,這些圖像更加復(fù)雜,有嘈雜的背景和相互遮擋的物體。
他們還有興趣最終將他們的模型納入機(jī)器人系統(tǒng),使機(jī)器人能夠從視頻中推斷出物體關(guān)系,然后應(yīng)用這些知識(shí)來(lái)操縱世界上的物體。
捷克技術(shù)大學(xué)捷克信息學(xué)、機(jī)器人學(xué)和控制論研究所的杰出研究員Josef Sivic說(shuō):"開(kāi)發(fā)能夠處理我們周?chē)澜绲慕M成性質(zhì)的視覺(jué)表征是計(jì)算機(jī)視覺(jué)中的一個(gè)關(guān)鍵性的開(kāi)放問(wèn)題。這篇論文在這個(gè)問(wèn)題上取得了重大進(jìn)展,它提出了一個(gè)基于能量的模型,明確地對(duì)圖像中描繪的物體之間的多種關(guān)系進(jìn)行建模。這些結(jié)果確實(shí)令人印象深刻,他沒(méi)有參與這項(xiàng)研究。"
(舉報(bào))