高效低耗計算快，CEVA 新推的 DSP 獨領風騷

本文作者：章敏

2016-09-28 17:31

導語：CEVA 今天發布第五代圖像和計算機視覺 DSP 產品 CEVA-XM6，具有更優的性能、更強大的計算能力，以及更小的耗能。

導讀：CEVA 今天發布第五代圖像和計算機視覺 DSP 產品 CEVA-XM6，具有更優的性能、更強大的計算能力，以及更低的耗能。深度學習、神經網絡、圖像/視覺處理已經是計算機科學中很大的一些領域，然而它們依賴的許多工具仍處于初步階段。機器學習需要的實時、精確處理數據的能力也往往耗費很大。

注：本文首發于 ANAND TECH，作者 Ian Cutress，由雷鋒網編譯，未經許可不得轉載。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

深度學習，神經網絡和圖像/視覺處理已經成為一個很大的領域，然而，許多依賴它的應用程序仍然處于初步階段。汽車是應用這些領域最典型的例子，而解決汽車面臨的問題，需要同時深度理解和發展硬件與軟件，實時高精度處理數據的能力，為其他機器學習編碼打通了一系列道路，接踵而至的問題則是成本和功耗。CEVA-XM4 DSP 想成為第一個支持深度學習的可編程 DSP，且就在今天，有著軟件生態系統的新型 XM6 IP 也被推出，其效率更高，計算能力更強，還有新的節能專利。

玩 IP 游戲

當 CEVA 宣布 XM4 DSP 推斷定點算法中預訓練的精度與全算法基本一樣，誤差不到 1 %時，它贏得了該領域許多的分析師獎項，CEVA 稱高性能和功率效率讓其從競爭，及軟件框架的初步進展中脫穎而出。IP 公告發布于 Q1 2015 季度，第二年獲得了許可證，第一批使用 IP 生產的硅鋼將于今年下線。此后，CEVA 發布了其 CDNN2 平臺，它是一款一鍵編譯工具，訓練網絡，并將其轉換成適合 CEVA XM IPS 的代碼。新一代 XM6 整合了歷代 XM4 的特點，改進了配置，可以訪問硬件加速器，還擁有新型的硬件加速器，而且，它還保留著 CDNN2 平臺的兼容性，這樣的編碼可兼容 XM4，也可以在 XM6 上高性能運行。

CEVA 屬于 IP 業務，如 ARM，并與半導體公司合作，然后賣給 OEMs 。這通常需要很長的時間，來將新產品從構思實際推入市場，尤其是在安全和汽車等行業正快速發展時。CEVA 將 XM6 改成了一種可擴展的、可編程的 DSP，它可以用單一的代碼庫橫跨市場，同時利用額外的功能來改善功率、性能，并降低成本。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

今天的公告中，包括新型 XM6 DSP，CEVA 新系列的圖像和視覺軟件庫，一套新的硬件加速器，并將其融入 CDNN2 生態系統。CDNN2 是一款一鍵編譯工具，檢測卷積，并應用優于邏輯塊和加速器的最佳方法傳輸數據。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

XM6 將支持 OpenCL 和 C++ 開發工具，以及軟件元素包括 CEVA 的計算機視覺、神經網絡和有著第三方工具的視覺處理庫。硬件為標準 XM6 核心的處理部分實現了AXI 連接，從而與加速器和內存交互。XM6 IP 里面有卷積的硬件加速器 CDNN 助手，它允許低功率固定功能硬件，處理神經網絡系統的疑難部分，如 GoogleNet，校正魚眼上的圖像或扭曲鏡頭，圖像的失真已知，變換的函數是固定功能友好型的，以及其他的第三方硬件加速器。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

XM6 的兩大新硬件功能，將幫助大多數圖像處理和機器學習算法。第一個是分散-聚集，或者說是閱讀一個周期中，L1 緩存到向量寄存器中的 32 地址值的能力。CDNN2 編譯工具識別串行代碼加載，并實現矢量化來允許這一功能，當所需的數據通過記憶結構分布時，分散-聚集提高了數據加載時間。由于 XM6 是可配置的 IP，L1 數據儲存的大小/相關性在硅設計水平是可調節的，CEVA 表示，這項功能對于任意尺寸的 L1 都有效。此級用于處理的向量寄存器是寬度為 8 的 VLIW 實現器，這樣的配置才能滿足要求。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

第二功能稱為“滑動-窗口”數據處理，這項視覺處理的特定技術已被 CEVA 申請專利。有許多方法可以處理過程或智能中的圖像，通常算法將立刻使用平臺所需一塊或大片像素。對于智能部分，這些塊的數量將重疊，導致不同區域的圖像被不同的計算區域重用。CEVA 的方法是保留這些數據，從而使下一步分析所需信息量更少。聽起來是否很簡單，在 2009 年，我做了類似的三維微分方程分析，確實是這樣，我很驚訝，它之前并沒有實現視覺/圖像處理。如果你有地方存儲的話，重復使用原始數據，就可以節省時間，節省能源。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

CEVA 稱 XM6 在重矢量工作量中的性能增益是 XM4 的 3 倍，同比移植內核平均提升了 2 倍。XM6 在編碼方面也比 XM4 更容易配置，提供“ 50% 額外的控制”。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

結合具體的 CDNN 硬件加速器（HWA），CEVA 指出，生態系統中的卷積層，如 GoogleNet 消耗了周期中的大部分時間。CDNN HWA 采用了此編碼，并用 512MACs 為它實現了固定的硬件，使用 16 位支持實現了 8 倍的性能增益，且利用率為 95%。CEVA 提到使用 12 位的方法將節省芯片面積和成本，同時最小化精度損耗，但也有一些開發商要求用完整的 16 位方法，以支持未來的項目，因此，結果是選擇了 16 位。

高效低耗計算快，CEVA 新推的 DSP 獨領風騷

在該領域的汽車圖像/視頻處理方面，CEVA 有兩大競爭對手，分別是 MobilEye 和 NVIDIA ，后者推出了 TX1 以促進神經網絡的訓練和推理。基于 690 MHz 情況下，TX1 在 TSMC 20nm 的平面處理技術，CEVA 說，他們內部模擬給出的單體 XM6 在平臺方面效率提升了 25 倍，而且，比 AlexNet 和 GoogleNet 速度快四倍。當然，盡管 XM6 也可以在 16nm 或 28nm 的 FinFET 運行，但這些都是其在 20nm 情況下運行的結果。這意味著，根據單批 TX1 公布的數據，XM6 在 FP16 使用 Alexnet ，相比 67幀/秒，它可以執行每秒運行 268 幀圖像，相比于 5.1 w，它只要 800 mW。在 16FF 中，功率的數值可能更低，CEVA 告訴我們，他們內部度量最初是在 28 nm / 16FF 情況下完成的，但他們在 20 nm 情況下，使用了 TX1 對其各個方面重新進行了度量。應該指出的是，TX1 多批次的數值表明，其效率比單批次更好，然而，它沒能提供其他更多的對比值。CEVA 還用 DVFS 方案實現了功率門控，當 DSP 的各個部分或加速器空閑時，可降低功率。

很明顯，NVIDIA 的優勢是其解決方案的可用性，和 CUDA/OpenCL 軟件開發，這兩方面 CEVA 都想通過一鍵軟件平臺來實現，如 CDNN2 ，并改善硬件，如 XM6 。看看哪些半導體合作伙伴和未來的實現工具，能將這種圖像處理與機器學習結合起來。CEVA 指出，智能手機、汽車、安全和商業應用，如無人機、自動化將是主要目標。

Via：ANAND TECH