創作內容

9 GP

【心得】寫給 CNN 的情書──A ConvNet for the 2020s

作者:無鹽粄條│2022-06-27 11:43:48│巴幣:219│人氣:499


  一直覺得 CNN 的發展故事很有意思。



這是一篇本人對下列論文讀後的小小心得:

論文標題:A ConvNet for the 2020s



  對這篇文章的第一印象便是它的標題,下得非常帥,很有邁向一個新時代的氣魄。標題提到的2020年代,是電腦視覺研究掀起新穎潮流的時代。

  甫進入這新的十年,Vision Transformer (ViT) 的發表就撼動了 CNN (Convolutional Neural Network) 長年的霸主地位:ViT 在沒改動太多原始 Transformer 架構的情況下,在影像辨識上獲得與先進 CNN 同等、甚至更好一點點的成績。

  這件事讓人大震撼的原因,在於 ViT 並不是一個全新的架構。Transformer 事實上原是在自然語言處理 (NLP) 中,用來進行 sequence to sequence 任務的 (最簡單的例子像是文字翻譯)。

  Transformer 大概在2017年被提出,這個網路標榜的、也是大名鼎鼎的 “self-attention block”,很大程度地改善了 RNN 難以平行計算的問題,Transformer 也很快就稱霸了 NLP 界。

  所以原本用來處理人類語言的 Transformer,在些微的調整下,竟也能拿來做影像任務,而且還做得很好,雖然我不是電腦科學家,但那聽起來很不錯對吧?

  我知道你在想什麼,這聽起來好到不真實,但它就是發生了。這篇論文的背景,也就是在這翻天覆地的2020年代。它成了試圖捍衛 CNN 的動人篇章。



  Sliding window 一直是影像處理中很常使用的策略,這裡舉 convolution 作為例子:

  Sliding window 這個策略對於多數視覺任務都十分有效,這也是為什麼 CNN 能稱霸這個領域的原因之一。

  CNN 的基本樣態在上世紀就出現了 (知名的像是 Yann LeCun 的 LeNet 系列),但當時 CNN 受到重視的程度遠遠不及現在。類神經網路在過去曾被打入冷宮,到了近代還一度被 SVM 等方法的光輝所掩蓋。

  一直到2012年 AlexNet 出現,它在 ImageNet 上得到了空前的表現 (大勝第二名的隊伍10%左右),從此 CNN 開使了近十年的偉業,不斷有推陳出新的架構出現 (VGG、GoogleNet、ResNet、DenseNet……)。

  與 CNN 相比,ViT 常被認為更容易處理圖片整體 (non-local) 的相互關係,因為它在計算每個位置的 hidden state 時,都會用到整個 sequence。

  但也導致它計算量的複雜度太大,是圖片大小的平方級別,使它不好處理解析度過大的輸入,而難以投入在 detection 或 segmentation 等任務。

  為了處理這個問題,Swin Transformer 提出了 window-based attention 以及階層式的架構逐步減少 patch 數量。這些策略讓 Transformer 得以成為廣泛運用在各種視覺任務的 backbone,很多人認為這進一步擴大了 Transformer 對 CNN 的領先地位。

  但這篇論文作者的觀點則是,window-based attention 等於是再次證明了 sliding window 對於視覺任務是多麼有效,而且 Swin Transformer 為了使不同 window 之間的 patch 也能交換資訊,提出了 shifted window-based attention,將 window 的分割平移並將兩種 attention 交替使用:


  但這也讓實作變得相當複雜。論文作者更是認為,CNN 早已具備了這些研究想達成的種種特性,而且 CNN 的實作相當直觀且簡易。今天許多人相信 Transformer 比 CNN 更好的原因,只是因為 Transformer 獲得較好的效果。

  而這篇論文的目的就是要推進 CNN 的極限:從標準的 ResNet 開始,經過各式各樣的調整,打造出一個效果超越 Swin Transformer 的純 CNN 架構,來進一步挑戰世人對 Transformer 的信念。



  前陣子在看到網路上一篇介紹這篇論文的文章 (道高一尺,魔高一丈,ConvNet还是ViT?) 後,腦中浮現的句子便是「寫給 CNN 的情書」。

  事實上這篇論文確實滿溢著作者對於 CNN 的喜愛,尤其在 introduction 的部分,諸如 “The full dominance of ConvNets in computer vision was not a coincidence.”、“The essence of convolution is not becoming irrelevant; rather, it remains much desired and has never faded.” 等句子,都能體現出這股情感。

  作者真的十分推崇 convolution 的精神,認為它在2010年代之所以主導電腦視覺領域,「絕對不是巧合」;甚至認為至今 convolution 的本質「從未過氣」也「從不褪色」。

  不過我還是不太敢寫技術性的內容,一方面也是覺得真寫出來的話,大概會跟上述的文章有一定的重疊。所以至少想以說故事的角度,來聊聊這篇論文的精神。

  如果想知道這篇論文具體做了哪些改動,可以看看上述的文章,這邊只貼一下論文給的實驗結果:

  還有最終版本 (ConvNeXt) 使用的 block:

  其實這篇論文並沒有提出嶄新的架構,很多內容在之前都被分開研究過 (像是 MobileNet 用過的 depthwise convolution);甚至大部分改動都有參考 Swin Transformer (例如整體架構中 block 數比例、depthwise convolution 的位置等)。這篇算是把這些都集結了起來,並使 CNN 與 Swin Transformer 更為接近的作品。

  這篇的實驗專注在純 CNN 架構跟 Swin Transformer 的比較,其實也有另一派人致力研究如何把 Transformer 應用在 NLP 與 CV 之間的鴻溝填平,這邊的後續發展也是很讓人期待的。



  我決定把這個系列命名為「無鹽粄條加香菜」,算是我在學習過程中留下的一些心得吧。一直想做這種事很久了,但我一直擺爛QQ

  我想這篇心得對於內行的人來說,大概會覺得沒講到太多重點;沒接觸過的人大概又覺得不知道在寫什麼東西。不過我還是試著寫出這樣一篇,希望這個可以變成一個系列,再來慢慢調整吧。

  如果有哪裡寫得不對,拜託大佬們幫忙指正或補充,畢竟我也只是坨躺平的粄條而已。



  最後只是題外話,想到「寫給 CNN 的情書」這句話後,我馬上就聯想到了愛言葉Ⅲ這首歌,我很喜歡這首歌:

  於是我開始把裡頭的歌詞跟 CNN 的故事連結在一起,沒什麼意義,只是我在硬要而已:

  「僕は変わりました 新しい君に出会うために」:CNN 其實也變了不少。它之所以站在時代尖端,是因為不斷有人研究並改良的結果,從最早的 LeNet、到後來突破性的 AlexNet、一路演進出 ResNet 以及後續不同的架構。

  「久しぶりだねって 言えたならここで泣こっか」:CNN 在數十年前就誕生,在過去卻被認為是不太實用的模型。直到過了十幾、二十年,也就是2010年代,CNN 才終於崛起,回到世人眼前。

  「僕ら“II”を嫌って “I”に戻って 何回だって 間違ってきたよ」:把“I”與“II”分別看成CNN 與 ViT,而副歌的下一段又再把“I”換回“II”。其實,至今學者們仍在研究兩種模型的極限與差異。單從這篇論文也可以看出來,它們有多少潛力其實我們都尚未明瞭。

  總之就是把歌詞與個人觀點混在一起罷了!也不一定是對的,看看就好。

  很感謝看到這裡的大家!
  希望還有機會在這裡與大家相遇!再見。


引用網址:https://home.gamer.com.tw/TrackBack.php?sn=5495703
All rights reserved. 版權所有,保留一切權利

相關創作

留言共 2 篇留言

熾炎之翼
寫的太好了 佬…
以我現在的程度也只能勉強看懂 [e18]
不過我一直以為在影像上CNN本來就是不可撼動的霸主
原來transformer也是有威脅到其地位
不過我也相信大部分的影像任務性質應該還是注重於局部性特徵
在這前提上CNN的潛力應該還是大於transformer的吧

06-27 12:00

無鹽粄條
感謝天,i尼<3

CNN 的種種性質對影像來說真的很有效,如果不預訓練,直接在小資料集上跑,ViT 表現可能會比 CNN 還差很多。原始 ViT 論文也是用了非常大的 dataset 來預訓練。

而另一方面 Swin Transformer 確實跟你說的一樣,又把局部特徵的想法拿了回來。

這些發展真的滿有趣的。
06-27 12:26
冰鳩
不明覺厲[e18]

07-04 00:01

無鹽粄條
https://truth.bahamut.com.tw/s01/202010/21308ab50ecd6fa069cbd3fb32db7e70.JPG?w=30007-04 08:39
我要留言提醒:您尚未登入,請先登入再留言

9喜歡★ak821091 可決定是否刪除您的留言,請勿發表違反站規文字。

前一篇:【短篇】山神之家的山里合... 後一篇:【心得】Masked A...

追蹤私訊切換新版閱覽

作品資料夾

bingh21《鬼神之亂》
西洋版呂布,布萊克出征聯合軍,面對同床異夢的對手,他想出了什麼詭計?看更多我要大聲說昨天22:51


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】