成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給汪思穎
    發送

    0

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    本文作者: 汪思穎 2018-11-21 17:13
    導語:通過特征共享的方式高效的把像素級別的圖像語義分割和錨檢測回歸放入一個網絡之中,把像素分割結果轉換為錨檢測回歸過程中的一種注意力機制。
    開發
    企業:云從科技
    操作:技術解讀
    內容:

    雷鋒網 AI 科技評論消息,日前,云從科技在自然場景 OCR 中的文本檢測這個環節取得了技術突破,在檢測準確率和檢測效率兩個綜合維度上,獲得了至今為止最好的結果。這一事件在雷鋒網旗下學術頻道 AI 科技評論數據庫項目「AI 影響因子」中有相應加分。以下為他們對此次使用的深度學習文本檢測框架 Pixel-Anchor 的解讀。

    背景導讀

    OCR 技術有著悠久的發展歷史,從上世紀 60 年代第一個識別英文字母的 OCR 產品面世以來,OCR 的識別領域逐步擴展到數字、符號,進而其他語言,譬如拉丁語系中的法文、德文、意大利文等,東亞語系中的中文、日文、韓文等。OCR 一般包含兩個基本模塊,文本檢測和文本識別。在深度學習技術發展之前,傳統 OCR 的文本檢測依賴于一些淺層次的圖像處理方法或者圖像分割方法以及一些復雜繁瑣的后處理技術進行文字定位,譬如早期基于二值化的連通域提取,或者后期基于極大穩定區域的字符區域提取,之后再配合這些被提取區域進行一系列的連接操作來完成最終的文本定位。因為這些技術的使用,傳統 OCR 所處理的對象往往局限于成像清晰,背景干凈,字體簡單而同時又排列規整的文檔圖像。

    隨著深度學習的發展,在 OCR 的文本檢測領域中,也涌現出一系列端到端的深度學習檢測框架,OCR 所能處理的對象逐步從高質量的文檔圖像擴展到成像質量高低不等、背景復雜、字體多樣、文本方向任意的自然場景中。應用范圍也從文檔識別擴展到圖片廣告過濾、場景理解、商品識別、街景定位、票據識別等廣泛的領域。下圖是幾個自然場景文本檢測的例子。

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    目前基于深度學習的文本檢測框架可以分為兩類,一類是基于像素級別的圖像語義分割,另一類是來源于通用的物體檢測框架,譬如基于錨 (anchor) 的檢測和回歸。

    基于像素分割的文本檢測框架首先通過圖像語義分割獲得可能的文本像素,之后通過像素點直接回歸或者對文本像素的聚合得到最終的文本定位;而基于錨檢測回歸的文本檢測框架是在通用物體檢測的基礎之上,通過設置更多不同長寬比的錨來適應文本變長的特性,以達到文本定位的效果。

    基于像素分割的文本檢測往往具有更好的精確度,但是對于小尺度的文本,因為適用的文本像素過于稀疏,檢出率通常不高,除非以犧牲檢測效率為代價對輸入圖像進行大尺度的放大;基于錨檢測回歸的文本檢測對文本尺度本身不敏感,對小文本的檢出率高,但是對于大角度的密集文本塊,錨匹配的方式會不可避免的陷入無法適從的矛盾之中,此外,由于這種方法是基于文本整體的粗粒度特征,而并不是基于像素級別的精細特征,它的檢測精度往往不如基于像素分割的文本檢測。對于中文這樣文本長度跨度很大的語言,目前的這兩種方法在長文本上的效果都不盡人意。

    針對這些問題,云從科技提出了一種端到端的深度學習文本檢測框架 Pixel-Anchor,通過特征共享的方式高效的把像素級別的圖像語義分割和錨檢測回歸放入一個網絡之中,把像素分割結果轉換為錨檢測回歸過程中的一種注意力機制,使得錨檢測回歸的方法在獲得高檢出率的同時,也獲得高精確度。

    此外,對于如中文這樣文本長度跨度很大的語言,在 Pixel-Anchor 中,云從科技提出了一個自適應的預測層,針對不同層級的特征所對應的感受野范圍,設計不同的錨以及錨的空間位置分布,以更高的效率更好的適應變化的文本長度。如前所述,在兩個具有挑戰性的自然場景文本檢測測試集 ICDAR2015 以及 ICDAR2017 MLT,Pixel-Anchor 在檢測準確率和檢測效率兩個綜合維度上,獲得了至今為止最好的結果(具體結果見下面 Table 1,Table 2 和 Table 3)。該框架在滿足生產環境實時性要求的基礎上獲得了很高的檢測準確率,目前已在云從科技的證件票據識別系統和圖片廣告過濾系統中上線。

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    Pixel-Anchor 這套文本檢測框架,和目前主流的文本檢測框架相比,提出了兩個大的改進點:

    第一點是提出了把像素級別的圖像語義分割以及基于錨的檢測回歸方法高效融合在一起,可端到端訓練的檢測網絡。在該網絡中,像素級別的圖像語義分割以及基于錨的檢測回歸方法共享基礎特征,而像素級別的圖像語義分割結果作為一種注意力機制,用以監督錨檢測回歸的執行過程,在有效保證文本檢出率的同時,提升了文本檢測的精度。

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    總體框架見上圖,Pixel-Anchor 采用學術界通用的 ResNet-50 作為特征提取主干網絡,提取出 1/4,1/8,1/16 的特征圖作為像素級別語義分割模塊(Figure 5)以及錨檢測回歸模塊(Figure 6)的基礎特征,同時語義分割模塊的輸出結果以熱力圖的形式注入到錨檢測回歸模塊中。整個網絡簡單輕巧,可通過 ADAM 優化方法進行端到端的訓練。

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    第二點是在錨檢測回歸這個模塊中引入了自適應預測層「Adaptive Predictor Layer」,該預測層連接在不同層級的特征圖之后,根據各特征圖感受野的不同,調整錨的長寬比,卷積核的形狀以及錨的空間密度(anchor density,見 Figure 7),用以高效的獲得各特征圖上的文本檢測結果,進而對文本長度的變化獲得更好的適應性。自適應預測層在檢測水平長文本上的性能非常出色,和經典的 CTPN 方法相比,這一方法不需要復雜的后處理,更魯棒的同時效率更高。

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    論文地址:https://arxiv.org/abs/1811.07432

    (完)

    雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

    云從科技 OCR 新突破:端到端的深度學習文本檢測框架 Pixel-Anchor

    分享:
    相關文章

    編輯

    關注AI學術,例如論文
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說