下一代 AutoAI：從模型為中心，到數據為中心

本文作者：李梅

2022-08-05 19:23

導語：算法的迭代事實上變成了數據的迭代。

作者 | 李梅

編輯 | 陳彩嫻

今年年初，知名 AI 學者吳恩達在接受 IEEE Spectrum 的采訪中，呼吁大家將目光從以模型為中心轉向以數據為中心。深度學習問世以來，隨著神經網絡架構趨于固定和成熟，轉而尋找改進數據的方法，已經成了 AI 研發的新出口。

近日，2021 年吳文俊人工智能科學進步一等獎獲得者、云天勵飛首席科學家王孝宇博士，在人工智能產業年會上作了題為“ Towards Automated Artificial Intelligence”的主題報告。報告中，王孝宇博士詳述了AutoML/AutoAI 的三個發展階段，并介紹了他在云天勵飛主導開發的自動化 AI 模型生產平臺 YMIR。

王孝宇，現任云天勵飛首席科學家，此前曾任 Snap 研究院計算機視覺主席，NEC 美國研究院研究科學家。本科畢業于中國科技大學，后相繼在美國密蘇里大學獲得統計學碩士與電子計算機工程博士，主要研究領域為計算機視覺、機器學習與數據挖掘等，是目前國內唯一一位在系統、芯片、算法三個方向獲得吳文俊人工智能科技進步獎的 AI 學者。

下一代 AutoAI：從模型為中心，到數據為中心

AI 科技評論對王孝宇博士在吳文俊獎大會上的報告作了不改原意的整理，并圍繞 AutoAI 對王孝宇博士進行了一次深入對話。

1 AutoML/AutoAI 的三個階段

第一階段：模型設計、調參自動化

當前，很多學者都已經注意到，學術界或者工業界的優秀人才所聚焦的研發，花費太多時間用于模型結構設計以及調參，但實際上它本不應該成為研究的主要內容。所以，有沒有一種自動化的方法，讓深度學習的網絡架構在面對一個問題的時候，能自主的演化其架構？

今年，關心這個問題的學者們共同發起了第一屆“自動化機器學習國際會議”（International Conference on Automated Machine Learning，AutoML Conference 2022），會議近期于2022年7月25日-7月27日在巴爾的摩舉辦。

在大會上，學者們概括出了自動化機器學習所涵蓋的 10 個主題：

Neural Architecture Search（NAS）
Hyperparameter Optimization（HPO）
Combined Algorithm Selection and Hyperparameter Optimization（CASH）
Automated Data Mining
Automated Reinforcement Learning（AutoRL）
Meta-Learning and Learning to Learn
Bayesian Optimization for AutoML
Evolutionary Algorithm for AutoML
Multi-Objective Optimization for AutoML
AutoAI（including Algorithm Configuration and Selection）

NAS 研究的是神經網絡結構的自動搜索和設計。Hyperparameter Optimization （超參數優化）自動化的目標是在我們訓練神經網絡的時候，不必再去費時挑參數，去考慮哪一個參數好一點、哪一個參數差一點，而是可以自動預測和尋找。CASH 是個更難的問題，指我們要解決一個具體問題時，可以自動化地選擇哪些機器學習方法，而不是自己手動設計。

第二階段：簡單模型訓練的軟件化

如果說第一階段的自動化主要面向專業的算法研究人員，第二階段的系統化則面向一般的AI從業人員。他的主要目標是在給定標注好的數據的情況下，通過可視化的操作界面實現模型的訓練。但第二階段只是個美好的故事，很難實際應用，因為他缺乏對算法在實際場景中不斷迭代的支持。

第三階段：數據迭代自動化

在算法設計自動化的基礎上，正在發生一些變化。在去年的 NeurIPS 會議上，知名人工智能科學家吳恩達舉辦了一個 workshop，討論“模型和數據到底哪一個更重要”。在設計化的工業生產中，他的觀點是，以模型為中心（Model-centric）的技術研發已經轉化成以數據為中心（Data-centric）的技術研發。

模型和數據之間的關系可以這樣類比（這是我個人的理解，不代表其他人的看法）：模型和數據分別類比為一個人的 IQ 和知識儲備。假設一個人天生的 IQ 很高，如果從小就把他養在家里，永遠不跟社會打交道，也不讓他學習新的知識，那么他還是會成長為一個很笨的人。而即使一個人資質平平，但如果他見過全世界各地的事物，去過歐美留學，在中國做過實際的工業化生產，看過很多設計的案例，那么他可能比那個 IQ 高的人更厲害。所以如果這樣理解，模型就有點類似于 IQ，數據就有點類似于知識。二者同等重要，但到后面你會發現知識越來越重要，因為只有親歷過你才能知道，“知道”比“不知道”更重要。

在工業化大規模發展中，大家正在慢慢地從模型為中心的生產轉化為以數據為中心。下圖顯示的是吳恩達所做的一些實驗對比：

下一代 AutoAI：從模型為中心，到數據為中心

我們可以看到，當我們有了一個基礎算法之后，我們可從兩個維度來提高它的性能，一是以模型為中心的方法，即想盡各種辦法提高模型設計的復雜度、技術含量等；二是以數據為中心的方法，比如加數據（加數據也是有一些科學方法的，并不是加了數據后性能一定會提高）、檢查數據有沒有問題等等。他發現，以數據為中心的方法比以模型為中心的方法能更多地提高性能。我們自己做模型生產時也得到這樣一個結論：越到后面，數據的迭代越來越重要。因為所有模型的服務實際上是針對某一個特定場景，使用的是特定的數據。

在我們過去八年的實踐中，我們發現，算法的迭代事實上變成了數據的迭代。另外一個維度看，到現在為止，我們已經研發了大量算法模型，但從來沒有一個模型是搜集了一次數據、調整一次參數就不用再調整了，很多模型都迭代了 5-6 年，迭代的主要內容就是數據。因為我們解決不同的需求時，會遇到不同場景下的泛化性問題，我們碰到的問題越來越不一樣。這并不是算法不一樣的問題，而是場景不一樣，要處理的數據也不一樣，所以我們要不停地更新迭代數據，才能夠滿足不同場景應用的需求。

既然算法迭代已經變成了數據迭代，那么有沒有辦法把數據的迭代也自動化呢？如果算法設計可以自動化，那數據迭代也可以自動化，所以端到端地完成自動化的 AI 模型生產平臺就逐漸成為可能。

而數據迭代的自動化需要技術的支持，同時還需要系統層級的支持。

2 YMIR：自動化 AI 模型生產平臺

為什么要做AI模型生產的平臺化？如今，有自動化 AI 模型生產平臺需求的，已經不僅僅是谷歌、微軟、Meta、IBM、蘋果等大公司了，我們國內就有不少房地產公司開始投入 AI。他們都有人才的需求，自動化的 AI 可以降低他們的成本。地產公司、物業公司，以及像寧德時代這樣做電池的公司，都在慢慢引入 AI 來解決實際問題。

為什么會這樣？因為：“AI 是新時代的電力”。AI 是一個非常基礎的能力，可以提高我們做事情的效率，AI 并不改變行業，但是可以提升所在行業的生產效率，所以這種影響是全方位的，已經慢慢地波及到非技術類公司了。更不用說現在廣泛的制造業，制造過程中的很多環節都可以利用到 AI 的能力。如果想提高自己的國際競爭力，提升自己的生產質量，就需要 AI 的能力去賦能生產。

但問題又來了，我們沒有這么多 AI 人才，我們需要更scalable的方法進行AI的研發。因此我們就做了 YMIR 這樣一個自動化模型生產系統。

YMIR 是一個開源的、公益性的 AI 模型生產平臺，是我們和國際知名高校以及硅谷科技公司一起聯合發起的國際開源項目。我們還邀請到了多家美國科技巨頭公司的首席AI官擔任我們的項目顧問。該項目已經在 GitHub 上開源。

下一代 AutoAI：從模型為中心，到數據為中心

Github 地址：https://github.com/industryessentials/ymir

YMIR：覆蓋模型生產全流程，聚焦模型的快速迭代能力

有了這些技術的支持之后，我們打造了一個工程化的系統 YMIR。YMIR 覆蓋模型生產全流程，聚焦在模型的快速迭代上。我們不是訓練出一個模型就結束了，而是把模型（通過數據）迭代到能夠滿足現實場景的需求為止。

下圖是整個技術的框架，左邊是模型生產的初期階段，包括數據的準備、數據的標注、模型的訓練，右邊是一個迭代的過程，包括準備挖掘數據、數據標注、更新訓練集、再次做模型的訓練。

下一代 AutoAI：從模型為中心，到數據為中心

研發實踐：算法生產效率提升 6 倍，算法人員需求降 1/10

我們做了很多大規模研發實驗，來看看在實際生產的時候，它到底能不能解決問題。我們做了大概 6 個月的跟蹤，投入了 10 個標注人員，他們要么是高中生，要么是職業院校畢業的學生，當然也有算法人員。我們目前不能完全脫離算法人員，在面對一個問題的時候，怎么將其分解成技術實現，這還需要算法人員介入。同時，我們還需要算法人員給標注人員做一些簡單的系統培訓。算法人員投入 0.3 左右，即他們花費一天中的 30% 的時間去做這些事，其余時間他們還要做算法研發、標注文檔的審核、模型迭代情況的查看以及發現模型的問題。

我們標注的圖片總數是75萬，標注圖片框數 100 萬。標注人員的工作內容的 90% 用在標注上，把要檢測的物體標注出來，10%的時間是用在操作 YMIR 系統上。我們在 3 個月的時間里，使用 10 個標注人員、0.3 個算法人員，生產了 50 個算法，而且這些算法大部分能夠滿足實際應用的需求，比如應急事件中的滅火器檢測、消防栓檢測等城市治理的需求。有的算法都已經達到 97% 的精度。

這是我們使用這套系統和不使用這套系統的投入時間對比：

下一代 AutoAI：從模型為中心，到數據為中心

周期都是三個月左右，沒有這套系統的時候，算法人力的投入大概是36人/天，標注人員的投入是24人/天，模型生產了六個算法。在投入了這一套系統之后，我們在相同的時間周期內可以生產51個算法，生產效率大概是17個算法/月，而以前是3個算法/月。使用自動化平臺后，算法生產效率提升了 6 倍，但是算法人員的需求降為原來的 1/10。（公眾號:雷峰網(公眾號：雷峰網)）

3 對話王孝宇

AI 科技評論：云天勵飛是一家算法公司，為什么會研究 AutoAI ?

王孝宇：我們不是一家單純生產算法的公司，我們為客戶提供端到端的AI解決方案。

同時我們意識到我們國家技術智能化、信息化的基礎還比較薄弱。我們希望5年之后，公司都認識到 AI 的重要性，投入去做AI升級的時候，自動化的AI平臺將為他們節約大量的成本，并成為AI大規模普及的催化劑。而當AI成為不可或缺的部分的時候，才有平臺化的硬件、平臺化的生產力工具、平臺化的服務的機會。我們希望YMIR AutoAI系統能推動行業的進步，并促使公司進入下一代人工智能技術及服務的研發。

AI 科技評論：您提到 AutoML 經歷了三個發展階段，它們的本質不同在什么地方？

王孝宇：第一階段主要是在學術的范疇，比如學者們發起AutoML Conference 2022，大家主要在探索算法模型設計的哪些環節能夠用自動化的方式去完成，以及用何種方式去實現自動化，比如如何實現神經網絡結構搜索、超參數優化、混合算法選擇等等。

第二階段是打造出自動化的算法模型生產系統，把第一階段積累的方法論沉淀為平臺和系統，以低代碼甚至零代碼的方式實現自動化算法模型訓練。但這類平臺并沒有把模型迭代的過程落實到系統中去，沒有覆蓋真正模型訓練的完整生產周期，所以滿足不了工業化生產的需求，我把這個階段的 AutoML 定位成一個「玩具」，玩一玩可以，但是不能真正用到實際任務中。因為沒有任何一個工業化生產的模型只訓練一次技術就可以了，它是需要迭代的。

而我們正在做的是第三階段的 AutoML，即打造面向產業應用的自動化模型訓練平臺。據我們的市場調研，YMIR 是市場上唯一一個覆蓋模型生產的全生命周期的系統，它可以真正地用到工業化生產中。可以認為，早期的 AutoML 偏向于純技術，而 YMIR 更強調實際的工業應用。我們做的是一個產品系統，所以我們考慮的不僅是技術的問題，還有工程和系統的問題。

AI 科技評論：AutoML 和 AutoAI 兩個概念有什么區別？

王孝宇：我認為，我們比較合適將 AutoML 的概念限制在它的第一階段，它專注于技術。Machine Learning 也只是人工智能技術之一，生產系統其實并不是傳統意義的 AutoML ，只是我們現在還找不到一個合適的詞去概括它。相比較而言， AutoAI 能更好地概括我們現在做的事情。

AI 科技評論：為什么說數據越來越重要？

王孝宇：數據和算法等技術是相輔相成的。而最終技術如果要滿足應用需求，數據到位是不可或缺的一環。

算法可以將AI模型精度從 50% 提高到 60%，但還是不能最終解決應用中實際的問題，而數據可以將AI系統精度從 60% 提高到 90%。因為模型的設計逐漸趨同、技術趨向成熟，這時數據的迭代變得比技術本身更重要。算法技術一直都很重要，但往往落地的臨門一腳，需要數據來推動。

AI 科技評論：現在已經有別的 AI 模型生產平臺聲稱其訓練一個模型只需要十幾分鐘，您怎么看？

王孝宇：模型要真正能部署到現實系統中去、真正能跑起來才有用。宣傳訓練一個模型需要多短的時間是沒有意義的，因為真正耗時間的是數據。模型訓練可能只需要十幾分鐘，但百萬的數據標注也需要花費一個月。在一個模型的全生產周期中，我們首先要對問題進行定義，之后收集數據，再去訓練模型。將訓練完的模型用到現實的場景中，看是否存在什么問題，然后再次收集大量的數據去做迭代，這個迭代的過程是很長的。

我們的很多算法人員將 90% 的時間都用在數據的處理上，只有 10% 的時間用來寫代碼和研發模型結構。互聯網的數據相對容易獲得，但也需要大量的工作，因為數據的噪聲很大，尤其是隨著這一波人工智能的應用場景慢慢下沉到線下，數據的噪聲變得更大。例如傳統企業中質檢員拍攝的圖像數據、數據標注質量也會因為質檢員的個人素質差異而不同。

AI 科技評論：YMIR 平臺包含數據的自動標注嗎？

王孝宇：我們提供預標注。所謂的“自動標注”是一個偽概念，最起碼在現階段沒有一個平臺可以真正做到完全自動標注，現在還需要人去介入，比如說做井蓋檢測時，我們提前給井蓋畫一個檢測框。如果畫對了，標注人員就直接過審；如果沒對，標注人員還要再修改。

AI 科技評論：為什么你們目前還沒有選擇將 YMIR 商業化、而是免費開源？

王孝宇：我們國內的消費市場發展的非常好，因為有良好的移動互聯網基礎。而我們 ToB 服務的企業相較發達國家差距巨大，我想相當一部分原因是我們沒有良好的企業信息化基礎和企業服務生態。我們其實是一個底層的布道者角色，想要促進企業服務生態的繁榮。所以我們的平臺是完全開源的，無論你是個人用還是把它商業化都是免費的。這的確有些理想主義，但我們認為，整個行業好，我們就好，這是一種長期主義。（公眾號：雷峰網）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

李梅

編輯

發私信

當月熱門文章