引言

計算機視覺的應用現在無處不在。老實說，我已經不記得上次一整天沒有遇到或者沒有與至少一樣計算機視覺使用樣例進行交互時什么時候了（手機上的人臉識別）

但是有一件事情就是一想要學習計算機視覺的人傾向與陷入理論的概念，這是所能采取的最糟糕的路。為了真正的學習掌握計算機視覺，我們需要將理論與實踐相結合。

并且這就是開源計算機視覺項目存在的地方。不需要花一分錢就可以練習計算機視覺技術——你可以坐在現在的位置上完成這些工作。

推薦！最適合初學者的18個經典開源計算機視覺項目

所以在這篇文章中，我結合并創建了一個基于計算機視覺各種應用的開源計算機視覺項目列表。有很多事情要做，這是一個相當全面的清單，所以讓我們深入研究！

如果你是一個完全的計算機視覺和深度學習的新手并且更想要通過視頻學習，請參考下邊：

使用深度學習2.0 的計算機視覺

18個開源的計算機視覺項目分為下邊的這些類：

圖像分類
人臉識別
使用GAN的自然風格轉換
場景文字檢測
使用DETR的目標檢測
語義分割
自動駕駛的道路交通線檢測
圖像標注
人類姿勢估計
通過面部表情的情感識別

圖像分類的開源計算機視覺項目

圖像分類是計算機視覺領域的基礎任務，目標是通過給每張圖片分配一個標簽來區分圖像。對人類來說理解區分我們看到的圖像很容易。單是對于機器來說時非常不同的。對于機器來說區分大象和汽車都是一件繁重的任務。

下邊是幾個最突出的圖像分類開源項目：

Cifar10
CIFAR-10是一個在訓練機器學習和計算機視覺算法常用的數據集，它是機器學習最受歡迎的數據集。包含了60000張圖像，分為10類，每張圖像的的尺寸為32x32。類別有飛機、汽車、鳥、貓、鹿、狗、青蛙、馬、船和卡車。
ImageNet
ImageNet數據集是一個為計算機視覺研究的巨大圖像數據集，這個數據集中有多于140萬張圖像被手供標注，并且這些標注說明了圖像中含有那些物體。并且有多余1萬張圖像標注了物品的邊界框。 ImageNet包含了多余20000類的物品。

作為初學者，你可以使用keras或者pytorch從頭開始學習神經網絡，為了能夠得到更好的效果提升學習的層次，我建議使用遷移學習預訓練模型，例如CGG-16， Resnet-50，GoogleNet等等。

推薦！最適合初學者的18個經典開源計算機視覺項目

top4的圖像分類的python代碼

建議通讀下邊的文章更好的理解圖像分類：

使用深度神經網絡進行ImageNet的圖像分類
卷積層數加深（VGG）
圖像識別的深度殘差網絡（ResNet）

人臉識別的開源計算機視覺代碼

人臉識別是計算機視覺最廣泛的應用。人臉識別被應用在安全，監控或者解鎖手機。這是一個在預先存在的數據集中在圖像或者視頻中確認你的人臉。我們可以使用深度學習的方法來學習這些人臉的特征并且識別他們。

這是一個多個步驟的過程，這個過程由以下的步驟構成：

人臉檢測：這用來定位一個或者多個在圖像或者視頻中的人臉
人臉對齊：對齊是用來規范化人臉在集合上與數據集一致
特征提?。?后來，提取特征并且用在識別任務中。
特征識別：與數據庫中的特征相匹配

下面的開放源數據集將為您提供良好的人臉識別機會：

MegaFace
MegaFace是一個大規模的公共人臉識別訓練數據集，它是商業人臉識別問題最重要的基準之一。它包括4753320個人臉，672057個身份
Labeled faces in wild home
Labeled faces in wild home（LFW）是一個人臉照片數據庫，旨在研究無約束人臉識別問題。它有13233張5749人的圖片，是從網上發現和收集的。另外，1680名照片中的人在數據集中有兩張或兩張以上不同的照片。

此外，為了更好的利用這些項目，你可以使用像FaceNet這樣的預訓練模型。

Facenet是一種深度學習模型，它為人臉識別、驗證和聚類任務提供了統一的嵌入。網絡將每個人臉都映射在一個歐幾里德網絡中，每個圖像之間的距離是相似的。

推薦！最適合初學者的18個經典開源計算機視覺項目

資源

也可以使用keras或者pytorch的預訓練模型來構建自己的人臉識別系統。

還有一些更先進的人臉識別模型可供使用。Deepface是由Facebook的研究人員開發的基于CNN的Deep網絡。這是在人臉識別任務中使用深度學習的一個重要里程碑。

為了更好地了解近30年來人臉識別技術的發展，我建議您閱讀一篇有趣的論文，題目是：

Deep Face Recognition： A Survey

開源的計算機視覺項目一使用GAN進行自然風格轉換

自然風格轉換是一種使用一張圖像的風格重建另一張圖像的內容的計算機視覺技術。這是生成對抗網絡（GAN）的應用，這兒，我們輸入了兩張圖像，一張內容圖像，另一張時風格參考圖像，然后將二者混合在一起以至于輸出圖像看起來像使用風格參考圖像繪制出來的油畫。

這是通過優化輸出圖像與內容圖像匹配的內容統計和樣式參考圖像的樣式統計來實現的。

推薦！最適合初學者的18個經典開源計算機視覺項目

資源

下邊是一些用來練習非常令人驚嘆的數據集：

COCO數據集
COCO是一個大規模的對象檢測、分割和標注的數據集。數據集中的圖像是從日常場景中捕獲的日常對象。此外，它提供了多對象標記、分割掩碼標注、圖像標注和關鍵點檢測，共有81個類別，使其成為一個非常通用和多用途的數據集。
ImageNet
上邊已經提到過一 ImageNet非常靈活多用。

如果你還不知道如何應用風格轉換模型，這兒是一個tensorflow的教程可以幫助你，而且，如果你像更加升入了解這個技術我建議你閱讀接下來的論文。

藝術風格的學術表達
使用循環一致對抗網絡的無需配對的圖像到圖像的轉換
使用卷積神經網絡進行圖像分割轉換

用于場景文本檢測的開源計算機視覺項目

在任何給定的場景中檢測給定的場景是另外的一個非常有趣的問題。場景文字就是出現在戶外拍攝的圖像中出現的字符。例如，道路上的車牌號，道路上的公告牌等等。

場景圖像中的文字在形狀，字體，顏色和位置上都是變化的。由于光照和聚焦的不均勻性，使得場景文本識別的復雜度進一步增加。

推薦！最適合初學者的18個經典開源計算機視覺項目

下邊這些流行的數據集將會豐富你分析場景文字檢測的技能：

SVHN
街景門牌號碼（SVHN）數據集是其中最受歡迎的開源數據集之一。它已用于Google創建的神經網絡中，以讀取門牌號并將其與地理位置匹配。這是一個很好的基準數據集，可用于練習，學習和訓練可準確識別街道編號的模型。此數據集包含從Google街景視圖中獲取的超過60萬張帶標簽的真實房門圖像。
SceneText數據集
場景文本數據集包含在不同環境中捕獲的3000張圖像，包括在不同光照條件下的室外和室內場景。圖像是通過使用高分辨率數碼相機或低分辨率移動電話相機捕獲的。此外，所有圖像均已調整為640×480。

此外，場景文本檢測是一個兩步過程，包括圖像中的文本檢測和文本識別。對于文本檢測，我發現了最先進的深度學習方法EAST（高效準確場景文本檢測器）。它可以找到水平和旋轉邊界框。您可以將其與任何文本識別方法結合使用。

這是有關場景文本檢測的其他一些有趣的論文：

使用鏈接主義文本提議網絡檢測自然圖像中的文本
COCO-Text：用于自然圖像中文本檢測和識別的數據集和基準

使用DETR進行目標檢測的開源計算機視覺項目

目標檢測是通過邊界框以及圖像上的適當標簽預測圖像中存在的每個感興趣對象的任務。

幾個月前，Facebook開源了其對象檢測框架DEtection TRansformer（DETR）。DETR是針對目標檢測問題的高效創新解決方案。通過將對象檢測視為直接設置的預測問題，它簡化了訓練管道。此外，它采用基于變壓器的編碼器-解碼器架構。推薦！最適合初學者的18個經典開源計算機視覺項目

要了解有關DERT的更多信息，請參見論文和Colab notebook。

通過處理以下用于對象檢測的開源數據集來使您的資料多樣化：

open Images
Open Image是約900萬張圖像的數據集，其中標注了圖像級標簽，對象邊界框，對象分割掩碼，視覺關系和本地化描述。數據集分為訓練集（9，011，219張圖像），驗證集（41，620張圖像）和測試集（125，436張圖像）。
MSCOCO
MS-COCO是廣泛用于目標檢測問題的大規模數據集。它由33萬張圖像組成，其中包含80個對象類別，每個圖像有5個標注，并有25萬關鍵點。

您可以閱讀以下資源以了解有關對象檢測的更多信息：

基本對象檢測算法的分步介紹
使用流行的YOLO框架進行對象檢測的實用指南
Facebook AI推出檢測轉換器（DETR）–一種基于transformer的對象檢測方法！

用于語義分割的開源計算機視覺項目

當我們談論計算機視覺技術中對場景的完全理解時，語義分割就出現了。任務是將圖像中的所有像素分類為相關對象類別。

以下是實踐該主題的開源數據集的列表：

CamVid
該數據庫是開源的第一個按語義分割的數據集之一。這通常用于（實時）語義分割研究中。數據集包含：
367個訓練對
101個驗證對
233個測試對
Cityscapes
該數據集是原始城市景觀的經過處理的子樣本。數據集具有原始視頻的靜止圖像，并且語義分割標簽顯示在原始圖像旁邊的圖像中。這是用于語義分割任務的最佳數據集之一。它具有2975個訓練圖像文件和500個驗證圖像文件，每個圖像文件均為256×512像素

要進一步了解語義分段，我將推薦以下文章：

語義分割：Google Pixel相機背后的深度學習技術簡介！

以下是一些可用于語義分割的代碼的論文：

帶有空洞可分離卷積的編碼器-解碼器用于語義圖像分割
DeepLab：使用深度卷積網絡，空洞卷積和完全連接的CRF的語義圖像分割

用于自動駕駛車輛道路車道檢測的開源計算機視覺項目

一個自主轎車是能夠感知周圍環境，并無需人類干預就能操作的交通工具。他們根據適合車輛不同部分的各種傳感器創建并維護周圍環境的地圖。

這些車輛具有監視附近車輛位置的雷達傳感器。攝像機檢測交通信號燈，讀取路標，跟蹤其他車輛以及激光雷達（光檢測和測距）傳感器從汽車周圍反射光脈沖以測量距離，檢測道路邊緣并識別車道標記

車道檢測是這些車輛的重要組成部分。在公路運輸中，車道是行車道的一部分，被指定用于單行車輛來控制和引導駕駛員并減少交通沖突。

推薦！最適合初學者的18個經典開源計算機視覺項目

在您的數據科學家的簡歷中添加一個令人興奮的項目。以下是一些可用于實驗的數據集-

TUsimple
該數據集是Tusimple車道檢測挑戰賽的一部分。它包含3626個視頻片段，每個片段1秒。這些視頻剪輯中的每一個都包含20幀，并帶有帶注釋的最后一幀。它包含訓練和測試數據集，其中包含3626個視頻片段，訓練數據集中的3626個帶注釋的幀和2782個用于測試的視頻片段。

如果您正在尋找一些開發項目的教程，請查看下面的文章-

使用OpenCV進行實時車道檢測的動手教程（無人駕駛汽車項目?。?/a>

用于圖像標注的開源計算機視覺項目

您是否曾經希望過一些可以為社交媒體圖像添加標注的技術，因為您和您的朋友都無法提出超酷的標注？用于圖像標注的深度學習助您一臂之力。

圖像標注是為圖像生成文本描述的過程。它是計算機視覺和自然語言處理（NLP）的組合任務。

計算機視覺方法有助于理解并從輸入圖像中提取特征。此外，NLP以正確的單詞順序將圖像轉換為文本描述。

以下是一些有用的數據集，可幫助您使用圖像標注：

COCO Caption
COCO是大規模的對象檢測，分割和標注數據集。它由330萬張圖像（標有> 200K）組成，具有150萬個對象實例和80個對象類別，每個圖像有5個標題。
Ficker 8K 數據集
它是一個圖像標注語料庫，由158，915個眾包字幕組成，描述了31，783張圖像。這是Flickr 8k數據集的擴展。新的圖像和標注集中于進行日常活動和事件的人們。

如果您正在尋找項目的實施，我建議您看下面的文章：

在PyTorch中使用深度學習（CNN和LSTM）進行自動圖像字幕

另外，我建議您閱讀有關圖像標注的著名論文。

用于人體姿勢估計的開源計算機視覺項目

人體姿勢估計是計算機視覺的有趣應用。您一定已經聽說過Posenet，它是用于人體姿勢估計的開源模型。簡而言之，姿勢估計是一種計算機視覺技術，可以推斷圖像/視頻中存在的人或物體的姿勢。

在討論姿勢估計的工作之前，讓我們首先了解“人體姿勢骨架”。它是定義一個人的姿勢的一組坐標。一對坐標是肢體。此外，通過識別，定位和跟蹤圖像或視頻中人類姿勢骨架的關鍵點來執行姿勢估計。

推薦！最適合初學者的18個經典開源計算機視覺項目

資源

如果要開發姿勢估計模型，以下是一些數據集：

MPII
MPII Human Pose數據集是評估關節式姿勢估計的最新基準。該數據集包含約25K圖像，其中包含超過4 萬名帶注釋的人體關節的人。總體而言，數據集涵蓋410種人類活動，每個圖像都有一個活動標簽。
HUMANEVA
HumanEva-I數據集包含與3D人體姿勢同步的7個校準視頻序列。該數據庫包含執行6個常見動作（例如，步行，慢跑，打手勢等）的4個主題，這些動作被分為訓練，驗證和測試集。

我發現Google的DeepPose是一篇使用深度學習模型進行姿勢估計非常有趣的研究論文。此外，您可以訪問有關姿勢估計的多個研究論文，以更好地理解它。