0

作者 | 陳彩嫻
David Courtnay Marr(1945-1980)是計算神經科學領域的先驅之一。1973年,他應Marvin Minsky與Seymour Papert的邀請加入MIT人工智能實驗室,從事視覺相關研究,并開創性地提出了三維表達思想,使計算機視覺進入了一個新的時代。
可惜,馬爾于1980年英年早逝。在他的學生幫助下,MIT出版社在1982年出版了他的遺作《Vision: A Computational Investigation into the Human Representation and Processing of Visual Information》。該書一經出版,即成經典。

馬爾《視覺》的第一個中文譯本由汪云九、姚國正、劉磊等人推動。1983年到1986年,中國神經網絡研究先驅汪云九與其同事姚國正、學生劉磊花費了巨大功夫,將馬爾的原著翻譯成中文,并于1988年出版,也就是著名的《視覺計算理論》(如下)。

《視覺計算理論》一出版,立即成為高校和研究單位必備的參考資料。這本書也成為至今國內被引用最多的一本中文譯著,在我國極大地推動了計算機視覺在普通師生間的推廣,對我國計算機視覺、圖像處理、人工智能、模式識別等領域的研究和人才培養具有極其重要的價值。
當時馬爾在撰寫《視覺》一書時,人工智能、尤其是深度學習還未得到發展。而在深度學習時代,計算機視覺的研究發展得到了重大突破。此時重溫馬爾的經典著作,思考馬爾的計算理論在當代視覺研究中的作用,對計算機視覺未來的研究有很大意義。而現在距汪、姚、劉等人的第一個中文譯本的出版已經過去了三十多年,該譯本已經不易獲取,書中許多術語的通用譯法也都已有了改變。
受此啟發,現任斯坦福大學計算機科學系助理教授、昔日清華大學姚班畢業生的青年學者吳佳俊決定再次基于2010年麻省理工學院出版社出版的英文第2版再次進行翻譯。中文譯本《視覺:對人類如何表示和處理視覺信息的計算研究》已由博文視點出版。新的中文譯本包含了馬爾的同事Tomaso Poggio和Shimon Ullman為中文版新寫的序和后記,討論了馬爾的視覺理論在深度學習時代的價值,給新一代年輕學生提供了一本優秀的學習資料,可謂意義非凡!

該譯本也得到了朱松純、沈向洋、張正友、湯曉鷗、李飛飛等名人的大力推薦,不可錯過。
時隔多年,《視覺》一書所反映的馬爾利用神經科學知識、從人類視覺系統出發研究計算機識別的方法仍具有前瞻性與引領性。
在這本書中,馬爾至少做了兩大貢獻,一是將對信息處理系統的理解分為三個層次(計算理論層次、算法層次與硬件實現層次),二是提出了三維的視覺計算理論,對計算機視覺、人工智能與神經科學在內的多個領域產生了深遠影響。
比方說,20世紀80年代也是模式識別與計算機視覺、人工智能分化融合的一個關鍵時間點。模式識別這一學科最初是為了解決用機器識別物體的問題而出現。后來,隨著計算機研究的發展深入,如何讓計算機識別物體也成為了模式識別最重要的研究方向之一。馬爾的計算視覺理論出來后,模式識別與計算機視覺的結合也愈發緊密。
過去模式識別在模擬人的識別能力(尤其是識別3D物體方面)存在先天不足,需要把「識別目標」改為「識別表面」,把三維問題降為「2.5維問題」,從而集中解決從圖像到可見表面的識別問題。而馬爾的計算視覺理論反過來提供了從二維到包含紋理信息的2.5維圖像再到三維圖像的轉變方法,可謂是一枚硬幣的兩面,使得計算機視覺的研究取得了突破性的進展,也直接推動模式識別的對象從二維進入了三維領域。

圖注:馬爾的3D表示思想
在吳佳俊新完成的譯作中,美國藝術與科學院院士、以色列魏茨曼科學研究所 Samy 和Ruth Cohn 講席教授 Shimon Ullman 參與作序,也談到深度學習的出現對馬爾在40年前對視覺與人工智能的看法提出了多重挑戰。
Ullman認為,深度學習最核心的一點是挑戰了馬爾的基本方法,即為人類視覺與人工智能問題尋求所謂的「計算理論」。
在《視覺》一書中,馬爾的重點是在計算理論層次,而當前的深度網絡建模則側重于算法和實現層次,摒棄了計算理論的概念。
比方說,在處理從雙眼視覺計算三維形狀的問題時, 馬爾分析,計算任務依賴于在左右眼獲得的兩張圖像中建立視覺特征之間的對應關系,為了獲得可靠的對應關系,最合適的特征是多個層次上清晰的圖像強度變化(邊),通過將問題簡化為沿所謂的極線進行一維搜索,對相應特征的搜索也變得容易。根據這樣的分析,馬爾與團隊描述了基于這一任務的基本原理的計算理論。
而在深度學習的方法中,視覺問題是通過對任務進行端到端訓練來解決。這些訓練基于圖像示例,并將其與所需的輸出配對。作為計算理論支柱的基本原則在這里并不起直接作用。這些原則可能會被網絡模型隱式地發現并使用,但它們不會被從外部提供或顯式地使用。
這種方法上的差異會對馬爾的方法和方法論的其他核心問題產生影響。例如,馬爾強調基于計算理論的模塊化設計的用處,而深度學習方法則強調端到端訓練的價值。
不過,Ullman指出,在算法層次上,馬爾的計算理論與深度學習的端到端學習方法并不能完全區分開來。在馬爾發表于1977年的"Artificial Intelligence — A Personal View"中,馬爾區分了兩種類型的理論,分別稱為「類型1」與「類型2」。其中,「類型1」理論強調在設計合適的算法前必須了解算法應該做什么、且這些信息能夠被計算理論捕獲,許多生物信息處理問題都遵循「類型1」理論,且具有可解釋性;而「類型2」理論則是通過大量同時進行的流程/步驟來解決問題,比如預測蛋白質如何折疊的問題,偏向黑盒性質。

論文鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.5076&rep=rep1&type=pdf
在該文中,馬爾提到,他認為視覺與人工智能中的許多問題可能是「類型1」與「類型2」的混合,而不是單純的「類型1」。從理論上看,「類型1」的原則具備「類型2」所缺乏的解釋性。但是,在解決視覺、人工智能與人類認知的問題時,這些原則又是否真的有必要?這是一個爭議性很大的問題。
從譯者吳佳俊的序來看,他對馬爾理論最感興趣的自然是馬爾所提出的三大理解層次。計算機視覺在過去十年的進展都與理解層次有著本質關聯,但主流的研究逐漸忽視了計算理論的進展:計算機視覺究竟要「計算」什么?
吳佳俊談到,在過去十年,計算機視覺領域的最大進展是語義上的判別任務,尤其以語義上的圖像識別與分類為代表,判斷圖上的對象是貓還是狗。但計算機視覺中的「計算」,顯然不應該限于這類單一的任務。
馬爾所提出的低層視覺與三維結構重建在很長一段時間內主導了計算機視覺的研究。后來,深度學習的興起,以及算力和數據的增強對圖像的語義識別帶來了革命性的變化,這也即使導致了有些學者認為馬爾理論在過去的數十年間誤導了計算機視覺的發展走向。
對此,吳佳俊提供了一個觀點:現今計算機視覺的發展并不意味著語義判別是最重要、最正確的計算任務,也就無可區分馬爾計算理論與深度學習計算理論的優劣。此外,除了深度學習理論,計算機視覺在過去十年的爆發還歸功于以卷積神經網絡和反向傳播算法為代表的算法、以 GPU 為代表的硬件實現和以 ImageNet 為代表的數據,這與馬爾的三個理解層次也是相符合的(除了數據)。
馬爾在《視覺》一書中提出的計算理論基于包括初草圖和2.5維草圖在內的中間表示,以及過零點、視差等基本元素或「特征」,這似乎與當今部分深度學習領袖所強調的 「完全從數據中學習」的概念格格不人。
吳佳俊也在譯者序中提出了兩點看法:
其一,現有的深度學習架構有其內在的歸納偏置,如卷積神經網絡的空間局部性、循環神經網絡的時間局部性、Transformer 的自相似性,等等。而本書中討論的許多基本元素,恰與這些歸納偏置有內在的關聯。
其二,如果我們還試圖在人工智能和人類智能之間建立聯系(這本身也還漸成為一個有爭議的話題),那么任何的偏置是應該被預先設計,還是應該通過學習得到,就與人類認知科學中的先天與后天的概念,以及神經科學的內在機理,產生了千絲萬縷的聯系。諸如2.5 維草圖及與其緊密相關的包括深度圖在內的本征圖像這樣的概念,在認知科學和神經科學中都有廣泛的研究,這也可以至少在一定程度上解釋將它們引入計算模型的歸納偏置的合理性。而這種聯系也正是本書作為計算神經科學的教科書,可以長期對人工智能有深刻啟發和深遠影響的原因所在。
馬爾的視覺計算理論對吳佳俊影響深遠。在麻省理工學院求學期間,吳佳俊時常與導師或同事們討論將學習本身的歸納偏置與世界的內在先驗建立關聯的意義。這樣的先驗可以來源于人(即認知科學或神經科學,但在現在的發展下更多是認知科學),也可以來源于自然(即物理世界,也可以看作「把視覺還給視覺」)。
2017年,吳佳俊與多位合作者還發表了一篇論文("MarrNet: 3D Shape Reconstruction via 2.5D Sketches),將2.5維草圖的概念及其在恢復物體的三維結構中的作用與神經網絡相結合,將其命名為「MarrNet」,以表對馬爾的尊敬。

論文鏈接:https://jiajunwu.com/papers/marrnet_nips.pdf
吳佳俊的新譯本獲得了計算機視覺領域多位重要學者的推崇與肯定:


吳佳俊,斯坦福大學計算機科學系助理教授,研究方向是計算機視覺、機器學習和計算認知科學。加入斯坦福大學之前,曾是谷歌研究院的訪問研究員,并分別在清華大學和麻省理工學院獲得了學士和博士學位。他的研究曾獲ACM博士學位論文榮譽提名獎、AAAIIACM SIGAl博士學位論文獎、麻省理工學院George M. Sprowis人工智能與決策博士學位論文獎,以及2020年三星人工智能年度研究人員獎。
以下是AI科技評論與吳佳俊的簡短對話:
1、AI科技評論:您從什么時候開始翻譯《視覺》這本書?用了多長時間?
吳佳俊:2019年開始,基本是過去兩年的課余生活。
2、AI科技評論:促使您決定將《視覺》翻譯成中文的最主要動機是什么?
吳佳俊:我想把這本書好好讀一遍,所以要翻譯的話,就會讓自己盡力把每一句都讀懂。
3、AI科技評論:在翻譯這本書的過程中,您對計算機視覺的研究有了哪些新的理解與認知?
吳佳俊:這本書本質上是關注于人類視覺的一本教科書。雖然計算神經科學在過去四十年間的進展讓我們增進了對人類視覺的理解(毫無疑問,馬爾和他所著的《視覺》起到了重要的作用),但對絕大多數視覺問題,我們的知識仍舊是非常有限的。
對于計算機視覺而言,我們雖然在一些高層視覺的識別問題上取得了很大進展,但在很多書中提到的視覺的底層和本質問題上的進展其實還很有限。同時,并不意外地,我們對計算機視覺和人類視覺(包括行為層次和神經層次)的關聯的理解也非常初步。
最近幾年,學術界有越來越多的意愿來構建兩者之間的雙向聯結。我希望我們能夠有機會真正理解計算機和人類視覺的關系,以及在何種層次、何種程度上它們可以互相促進。
4、AI科技評論:馬爾在撰寫《視覺》一書時,深度學習仍未得到發展;而如今,計算機視覺已在深度學習的推動下得到了重大突破。時隔40年,您認為重溫《視覺》一書的意義是什么?對當下的學者研究有哪些啟發?
吳佳俊:我想最主要的還是激勵我們找到正確的計算理論(目標),為達成這個目標所需要的表示,以及獲取這些表示所需要的方法,和學習在獲取表示中所起的作用。
具體來說,以語義分類為代表的識別問題推動了視覺的發展;在某種意義上,我們可以把對ImageNet數據集的語義標注看作一場大型的心理物理學實驗:人類在這一特定的高層次的標注作為計算目標,雖與馬爾提出的計算目標不同,但恰與算法和硬件實現協同作用,推動了過去十年計算機視覺的跨越式發展。那在接下來的十年或二十年里,視覺計算的下一個目標又是什么呢?馬爾對于計算理論的追求歷久彌新,始終對我們的研究有所啟發。
5、AI科技評論:您為什么推薦青年學生就讀此書?在學習計算機視覺的過程中,這本譯作能夠給他們帶來什么?
吳佳俊:深度學習對計算機視覺的發展起到了極大的推動作用,但計算機視覺不僅僅只有深度學習。對計算機視覺的深入研究需要理解視覺本身,而馬爾的這本教科書是一個很好的出發點。
留言贈書
AI科技評論本次聯合【博文視點】為大家帶來10本《視覺:對人類如何表示和處理視覺信息的計算研究》正版新書。
在本文(僅限AI科技評論微信公眾號端)留言區留言,歡迎大家暢所欲言,說一下你和計算機視覺的那些事~在綜合留言質量(留言是敷衍還是走心)和留言點贊最高(注:點贊最高的前10不意味著一定會中獎)的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯系 AI 科技評論客服(aitechreview)。
留言內容會有篩選,例如"選我上去"、"這書寫的很棒(僅僅幾個字)"等內容將不會被篩選,亦不會中獎。
留言送書活動時間為2022年1月21日 - 2022年1月27日(23:00),活動推送時間內僅允許贈書福利中獎一次。
參考鏈接:
1.https://mp.weixin.qq.com/s/bKSmCpoYeuxmcqk9BK1EFg
2021-06-08

2021-12-05

2020-06-14

雷峰網(公眾號:雷峰網)雷峰網
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。