梁繼民教授團隊論文被計算機視覺頂級會議ECCV2020錄用
第十六屆歐洲計算機視覺會議 (European Conference on Computer Vision, https://eccv2020.eu/) 將于2020年8月23~28日通過線上舉行。該會議是計算機視覺三大頂級會議之一,代表著熱門科研領域的最前沿,具有廣泛而深遠的國際影響力。作為計算機視覺領域國際頂級會議,ECCV對論文質量有較高要求,本屆ECCV會議從5025篇有效投稿中最終錄用論文1361篇,錄用率僅為27%,因此在該會議發表論文表達了對作者工作的高度肯定。
我院梁繼民教授指導的博士生牛闖的研究論文《GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering》被今年ECCV錄用,該研究屬于無監督學習或自監督學習領域。圖領獎獲得者以及深度學習先驅Geoffrey Hinton和Yann Lecun曾在多次演講中表示,目前深度學習大多數面臨的問題都來自有監督學習,而無監督學習或者自監督學習是人工智能的未來(https://www.cs.cornell.edu/content/unsupervised-learning-next-frontier-ai)。無監督學習已成為當前深度學習研究的熱門領域之一,其中復雜自然圖像的無監督聚類或無監督分類是無監督學習領域中最具挑戰的問題之一。由于沒有人工標記指導模型訓練,如何優化模型使其能夠提取出圖像的語義特征,以及如何避免聚類過程陷入簡單解是無監督聚類任務在理論上面臨的主要挑戰;此外,無監督聚類通常需要在一大組圖像數據上進行統計分析,如何處理大尺寸圖像是無監督聚類任務主要面臨的技術挑戰。
圖1 (a) 標簽特征定理;(b) 神經網絡模型架構;(c) 自監督學習算法
針對上述問題,本研究提出了標簽特征定理,從理論上證明了如何避免簡單解,并設計了無監督注意力機制來提取以局部物體為導向的語義特征,這也是第一個將注意力機制與無監督學習結合的工作;從技術上,本研究提出了針對無監督聚類任務的自監督學習算法,具有顯著的內存高效性,能夠處理現代數據集(如ImageNet)中的大尺寸自然圖像。圖1(a)~(c)分別展示了本研究提出的標簽理論,整體模型結構,以及自監督學習算法。大量的實驗結果表明本研究提出的方法極大提高了聚類的準確率,如在STL10數據上比現有最好方法在三個常用聚類性能指標上分別提高了8%,7%和10%。另外,本研究提出的無監督聚類方法在聚類的同時,還能給出局部語義物體的定位(如圖2所示),從而使該神經網絡模型具有更好的可解釋性。
圖2 GATCluster在實現無監督聚類的同時能夠實現局部物體的定位,具有良好的可解釋性
論文信息:
Chuang Niu, Jun Zhang, Ge Wang, Jimin Liang, GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering, European Conference on Computer Vision (ECCV), 2020.