別亂用開源數據集，它可能會把自動駕駛汽車帶溝里！

本文作者：大壯旅

2020-04-03 17:14

導語：機器學習模型的性能與訓練所用數據集的質量息息相關

雷鋒網按，眾所周知，機器學習模型的性能與訓練所用數據集的質量息息相關。不過，怕什么來什么，計算視覺新創公司 Roboflow 就宣稱，我們擔心的情況在行業內時有發生。 Roboflow 的創始人 Brad Dwyer 指出，一些用來訓練自動駕駛汽車的知名數據集遺漏了不少關鍵數據。

Dwyer 指出，包含了 1.5 萬張圖片（主要是白天在山景城及附近區域采集）的 Udacity Dataset 2 就出現了遺漏。他們在數據集中發現了數千張沒有標簽的車輛、行人圖片。在大約 5000 張圖片中，還出現了很多沒有標簽的自行車（其中有 217 張甚至沒有任何注釋，但這些樣片中確實有小汽車、卡車、街燈或行人）。除此之外，Roboflow 還在該數據集中發現了虛假注釋以及復制粘貼，甚至體積明顯超標的bounding box。

標簽相當重要，但它并不是 AI 系統理解范式含義（比如什么時候一個人會走到車前）并給予該知識評估未來事物的準繩。不過，錯誤標簽或者沒有標簽的項目可能會造成精度降低或糟糕的決策，而對自動駕駛汽車來說這可是災難的根源。

別亂用開源數據集，它可能會把自動駕駛汽車帶溝里！

數據集中很多目標都沒有標簽

“開源數據集確實很棒，但如果想贏得公眾的信任，我們必須保證自己分享的數據足夠完整且準確。”Dwyer 寫道。他還指出，在 Udacity 的自動駕駛工程課上，成千上萬的學生都在用 Dataset 2 支持一個開源的自動駕駛項目。“如果你在項目中用了公共數據集，車輛上路前請一定要做好盡職調查并檢查其完整性。”

眾所周知，AI 容易因數據集不完整或偏斜而產生偏見。舉例來說，詞嵌入是一種常見的算法訓練技術，由于涉及將詞鏈接到向量，因而不可避免地會拾取（最糟糕的是放大）源文本和對話中隱含的偏見。眼下，許多面部識別系統就有點“種族歧視”，它們識別起有色人種錯誤率就要高一些。Google Photos 甚至錯誤為黑人打上了“大猩猩”的標簽。

目前，除了 2018 年 Uber 測試車那起致命事故，自動駕駛汽車遭遇的都是磕磕碰碰的小事故。不過，這可能是因為路上的自動駕駛汽車太少了，而未來情況可能會發生巨變。按市場研究公司 ABI 所言，2025 年將有 800 萬臺自動駕駛汽車上路，Research and Markets 則預計到 2030 年全美將有 2000 萬臺自動駕駛汽車投入運營。

別亂用開源數據集，它可能會把自動駕駛汽車帶溝里！

如果這些車輛都搭載著有缺陷的 AI 模型，一旦它們突然失靈，后果恐怕不堪設想，比如用一場惡性事故徹底毀掉人們對自動駕駛汽車的信心。布魯金斯學會與高速公路和汽車安全維權組織（AHAS）的研究均發現大部分美國人都對自動駕駛汽車的安全性不放心。布魯金斯學會的調查顯示，有超過 60% 的受訪者不想乘坐自動駕駛汽車，而 AHAS 的調查中則有 70% 的受訪者不愿和自動駕駛汽車共享道路。

想解決數據集的遺漏問題，就必須用上更好的打標簽方案。Dataset 2 在 Github 的官方頁面表示，自家的打標簽工作靠的是眾包語料注釋公司 Autti，后者用到了機器學習與人工監督相結合的方法。當然，現在我們還無法肯定數據集的遺漏是否與這種打標簽的方法有關，未來嚴格的驗證步驟才能給它蓋棺定論。

Roboflow 告訴 Sophos 的 Naked Security，稱公司計劃使用原始數據集和數據集的固定版本（已在開放源代碼中提供）進行實驗，以查看在訓練各種模型架構時問題的嚴重程度。“如果與其他領域（例如醫學，動物，游戲）的數據集相比，Dataset 2 質量真是特別差，” Dwyer解釋道。“我希望未來大公司們對打標簽、清潔和驗證過程再上點心吧。”

在一份聲明中，Udacity 強調稱，作為工具，自家的數據集純粹是為了教育目的而生，它們從未暗示過該數據集是完美的，或數據都打了標簽。此外，雖然 Udacity 在用該數據集訓練自家自動駕駛汽車，但幾年來這些車輛均在封閉測試道路行駛，從沒上過公路。

“我們放出這個數據集的目的是為了幫助那些剛剛轉戰自動駕駛領域的研究人員和工程師。”Udacity 發言人說道。“后來，類似 Waymo、nuTonomy 和 Voyage 等公司都放出國更新更好的數據集，它們才是面向現實世界的。因此，我們這個項目三年都沒更新了。也就是說，濫用這些教育數據集不但起不到幫助作用，可能還會造成誤導。”

雷鋒網&雷鋒網&雷鋒網

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

大壯旅

編輯

發私信

當月熱門文章