電子所陳渤團隊論文被頂會ICLR錄用
西電新聞網訊(通訊員 王正玨)第8屆國際表示學習大會(International Conference on Learning Representation,ICLR,https://iclr.cc/)將于2020年4月26日到4月30日,在非洲埃塞爾比亞首都亞的斯亞貝巴的千年大廳舉辦。該會議是機器學習和深度學習領域國際最頂級會議之一,在google人工智能領域的top publication排名中,排在第二位。它代表著熱門研究領域的最前沿,具有廣泛而深遠的國際影響力。這也是歷史上首次在非洲舉辦最頂級的機器學習會議。今年,來自雷達信號處理國家級重點實驗室陳渤教授團隊的博士生張昊(已經畢業前往杜克大學做博士后),田隆,王正玨的有關層次化概率多模態生成模型的論文《Variational Hetero-Encoder Randomnized GANs for Joint Image-Text modeling》被ICLR2020錄用。
作為機器學習以及深度表征學習領域的頂級會議之一,ICLR受到來自全世界學術界以及工業界相關研究人員和機構的廣泛關注,因而在該會議上發表論文極具挑戰性。本屆ICLR會議收到投稿數量2594篇,錄用論文687篇,接受率為26.5%。
圖1
在文本圖像多模態建模領域,現有模型大多只在單層上建立雙模態之間的關系,同時針對不同的實際任務只能實現圖像到文本或者文本到圖像的單向轉換。另外,基于傳統深度網絡構建的模型很難解釋雙模態之間的關系,不利于后續的數據分析和處理。
圖2
針對這些問題,本次發表的研究基于團隊在深度概率統計模型方面的系列工作,提出了一種全新的深度層次化概率多模態模型,用于同時建模文本和圖像數據。該論文利用生成對抗網絡建模圖像,利用深度概率模型建模文本,并在不同層之間建立了關系,從而實現了圖像文本模態之間的雙向轉換。具體而言,團隊首先提出了變分異構多層自編碼網絡。如圖1(a)所示,由圖像作為輸入,編碼推理雙模態共享的多層概率隱變量,進而通過概率解碼主題模型生成文本。這樣可以實現圖像到文本的轉換。反過來給定文本的情況下,可以利用吉布斯采樣推理不同層的概率隱變量,進而通過圖1(b)的stackGAN模型,生成圖像,實現文本到圖像的轉換。為了更好地建模兩個模態之間的層次化關系,團隊又提出了如圖1(c)所示的raster-scan-GAN模型,進而實現了圖像從語義粗糙到語義精細的生成過程,如圖2所示。實驗結果表明,模型不僅僅在多個文本圖像聯合學習任務中取得優異的性能,同時可以挖掘兩個模態在不同層之間存在的關系,這為后續的分析和數據處理提供了可解釋的依據。
通過若干年的努力,團隊基于概率框架已構建了一套完整的概率統計深度模型家族,分別是概率深度全連接生成模型(NIPS2015、ICML2017)、概率深度全連接自編碼模型(ICLR2018)、概率深度動態網絡(NIPS2018)、概率深度卷積網絡(ICML2019)以及概率深度多模態模型(AAAI2018、ICLR2020)。為概率模型與傳統深度網絡的結合提供了關鍵技術支撐和實際應用突破。
此次工作的錄用,不僅向外界充分展示了西安電子科技大學在機器學習領域的研究水平和研究成果,擴大了學校的學術影響力,同時也有助于學校與該領域頂尖學者的交流以及對該領域最新研究進展的了解。
論文工作詳情包括源程序請參考陳渤教授主頁:http://web.xidian.edu.cn/bchen/。