生成模型：基于單張圖片找到物體位置

本文作者： AI研習社-譯站

2019-02-13 11:26

導語：機器人技術和自動駕駛的興起驅使人們需要更好的機器視覺。

生成模型：基于單張圖片找到物體位置

本文為 AI 研習社編譯的技術博客，原標題：
Generative models: finding the object position by a single image
作者 | Ian Tsybulkin
翻譯 | 小Y的彩筆
校對 | 鄧普斯?杰弗審核 | 醬番梨整理 | 菠蘿妹
原文鏈接：
https://medium.com/@iantsybulkin/generative-models-finding-the-object-position-by-a-single-image-cc36b160a428

機器人技術和自動駕駛的興起驅使人們需要更好的機器視覺。有許多不同的方法可以幫助機器人來給自己定位，導航，防止碰撞等等。這其中的一些方法要求非常復雜的 AI 算法，巨大的訓練數據集，和昂貴的硬件。在這篇文章中，我們將展示一個相對簡單和強大的算法，既不要求初步訓練也不需要強大的硬件來運行。你只需要知道機器人預計要檢測出哪種物體。這個算法僅花費很小的計算能力就可以以很棒的準確率檢測到目標的位置。

工業上的應用

更具體的，讓我們假設有一個傳送帶在傳送不同尺寸的盒子，一個機器人需要將他們堆到不同大小的托盤上。為了實現這個，機器人需要檢測盒子的類型和它的位置。盒子的位置可以用（x, y)坐標和盒子一條邊和x軸形成的夾角來定義，比如，盒子沿傳送帶排列。機器人只有固定在傳送帶上的相機。

生成模型：基于單張圖片找到物體位置

相機的啟動

我們將會生成許多虛擬的圖像，對應傳送帶上盒子的不同位置。由于這個原因，我們需要知道相機的坐標，和它相對于參考框架的角度，這些參考框架是與傳送帶相關的，我們稱之為全局參考框架。

生成模型：基于單張圖片找到物體位置

相機的啟動

知道相機得坐標系和它的角度，我們可以找到相機的外部矩陣，而相機的外部矩陣是由它的特征確定的，比如焦距和像素數。外部矩陣可以輕易的通過一個標準的相機校準流程得到。

所以將任意在全局參考框架中的 3D 向量轉化為一個圖像像素的矩陣，可以用內部矩陣和外部矩陣的乘積得到，我們把它記作 M。

生成模型：基于單張圖片找到物體位置

那么，我們找到了一個由相機矩陣定義的 2D 或 3D 的轉換，它允許我們生成不同狀態下盒子的虛擬圖像。

生成圖像

如果可以將任意的 3D 向量轉換成圖像，如果有盒子的 {x, y} 位置，角度 α 和維度 {W x D x H}，我們就能生成圖像來表示在相機眼中盒子是什么樣的。也就是說對于任何狀態的盒子 {x, y, α, t}，我們可以構建一個虛擬圖像來表示在相機眼中類型 t，位置在 {x, y}，角度為 α 的盒子的樣子。

生成模型：基于單張圖片找到物體位置