獨家丨慧川智能發布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

本文作者：李秀琴

編輯：溫曉樺

2017-07-08 17:34

導語：2分鐘視頻，人類需要花費4小時，而機器可以在30s內自動生成并達到相同的效果。內容視頻化時代終將來臨？

慧川智能CEO：康洪文

在今日由中國計算機學會（CCF）主辦，雷鋒網和香港中文大學（深圳）承辦第二屆CCF-GAIR全球人工智能與機器人峰會的AI+專場上，慧川智能CEO康洪文在給大家帶來“AI(愛）讓視頻更簡單”的主題演講的同時，也重磅首發了一款新的視頻內容理解的API產品：智影·視頻理解API。

據康洪文介紹，這款API可利用深度學習技術，對一段完整輸入的視頻中所涵蓋的圖像和視頻流進行模式識別、拆解和結構化，從而對視頻內容實現精確到每一幀的處理。

康洪文向雷鋒網表示，智影·視頻理解API目前已向第三方開發者、媒體、內容制造者等群體開放使用。值得注意的是，該款API還有一個重要意義在于，可實現視頻內容的結構化。所以，這款API的開放在當前視頻內容理解相對處于空白狀態下來看，頗具意義。

又一個從學術界走向產業界

獨家丨慧川智能發布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

左：慧川智能創始人康洪文右：CMU大學計算機科學和機器人研究所教授金出武雄

說起慧川智能的初創團隊，其實也有點意思：創始人康洪文，CMU博士，曾在微軟研究院工作，研究方向主要為AI及視頻理解；CTO黃健，賓州州立大學博士，曾與康洪文同為微軟研究院同事，此前曾在Google工作，研究方向為NLP和機器學習；首席架構師劉曦，與康洪文同為CMU博士，曾在Conviva工作，研究方向主要為云計算和視頻大數據。

CMU作為計算機排名世界第一的學府，已經給學術界和產業界輸送了非常多優秀的人才。像計算機視覺鼻祖金出武雄，現任微軟全球執行副總裁的沈向洋等，皆來自于此。巧合的在于，康洪文在CMU和微軟都有分別“師從”金出武雄和沈向洋的經歷。

除去這些光彩的“緣分”，還得一提的是，2015年，三位初創成員就已有過一段與視頻AI處理相關的創業經歷。兩年過后，康洪文、黃健和劉曦又因為一些行業態勢走在了一起，開啟了二次創業。

“目前短視頻非常火”

“就視頻而言，90%的功勞歸屬于創意，只有5%有賴于'體力'。很多人就是被這些5%的體力給牽制住了。”康洪文向雷鋒網如此說道。

了解到這一行業現象，一與康洪文研究方向和從業經歷有關，二則是與湖南衛視的合作讓其對此深有體會。往往一檔大型綜藝節目，一個小時的視頻，背后往往需要上千個小時的幕后剪輯工作。康洪文發現，在這里邊，其實有很多繁瑣的工作是完全可以依賴機器來完成的，并且機器的速度和效果會更快更好。

于是，康洪文開始和湖南衛視、浙江衛視等有了合作，幫他們做了一些簡化工作流程的系統和產品。而智影正是在這些系統之上衍生出來的一款AI產品。

不過，這還不夠。

“目前短視頻非常火”，康洪文有點興奮。

暫不提月活用戶已超20億的Facebook，單就國內而言，網絡視頻活躍用戶已達5.5億。微信每天產出100萬篇以上的公號文章，其中就有67%的內容適合生成視頻。而隨著機器學習、CV和NLP應用的不斷拓展，用戶正慢慢從圖像、文字轉向視頻和短視頻使用，大家越來越依賴大信息量的視頻內容。

從這一行業大趨上來看，短視頻終將爆發不是沒有道理。然而，AI業界對文本、圖像的處理技術和算法已漸趨成熟，但對視頻信息的理解卻暫時處于空白狀態。業內甚至有人認為“視頻是一種暗物質”，機器無法知道視頻里究竟有哪些內容，或者視頻之間有哪些聯系。“它們占了全網90%的存儲空間，然而這種結構化的數據卻完全沒有。”

市場的痛點就此形成。這一切都讓一直深耕在CV領域的康洪文感覺到，既是挑戰，也是機遇。

2分鐘視頻，人力4小時剪輯、機器只要30s，效果一樣，如何做到？

康洪文給雷鋒網列了這樣一項數值，2分鐘的視頻，人類需要花費4小時在素材的收集、剪輯和渲染上，直至整個視頻出爐，而智影可在30s內自動生成這段視頻并達到相同的效果。

如何實現？

智能視頻技術的學術積累

獨家丨慧川智能發布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

在1990年以前，學術業界開始有了一些關于視頻合成技術和物體檢測識別的討論和研究。2000年以后，特別是2005年左右，整個學術業界開始泛起了對視頻合成，視頻內容理解的研究。據Google學術查閱的資料表明，在2005年以前，關于視頻內容理解這一項就有4530條結果的收錄。近十年來，這一學術搜索結果已增至17000條。同理，視頻合成、物體檢測識別、機器學習和NLP的理論研究也正如大家感受到的一樣呈井噴態勢。

這些學術研究成果確實給AI業界的創業者們搭起了架子。

視頻數據結構化的優勢

此外，托賴初創團隊在CMU的學術研究成果，以及在Facebook、微軟、Google等科技巨擘的從業經歷，慧川智能可以從各個公開的數據源里獲得全網的數據，并借助自身AI算法的積累對其進行內容結構化的處理。

獨家丨慧川智能發布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

據康洪文介紹，慧川智能在此其中還實現了一項新的Research成果，也是今日康洪文在CCF-GAIR 2017會場上發布的重頭戲：根據輸入的一段完整視頻，機器能夠利用深度學習對其涵蓋的圖像和視頻流進行模式識別，拆解和結構化，從而對視頻內容實現精確到每一幀的處理。比如，在20-40幀出現了一輛蘭博基尼汽車，在60-95幀出現了一段兩個人在對話。之后，從100-120幀，是一輛商務客機滑行出來直至結束......

這種算法可幫助機器很好的理解視頻內容，從而實現更高精確度的視頻的智能化處理。

所以，在數據結構化相對空白的行業態勢下，相較其他公司而言，這點算是慧川智能的一大優勢。

背后的CV、NLP、機器學習

不過，視頻數據結構化只能算是關鍵助力劑的一種，讓智影做到如上小標題的成績依然離不開架構在智影背后的機器學習、CV、NLP和信息檢索貢獻。

具體的運行原理可看這張圖：

獨家丨慧川智能發布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

據康洪文介紹，智影的運行流程有以下4步：

· 文本分析
· 素材匹配
· 在線剪輯、預覽
· 云端視頻渲染

其中關鍵的基礎步驟在前面2個。在一個擁有足量信息和內容的數據庫里，當一篇文章被上傳到機器里，在NLP和機器學習的幫助下，機器會先對其進行文本分析，抓取文本中的如時間、地點、人物、事件等關鍵要素，并予以理解。接續，機器會進入“素材匹配”階段。因為這些素材本身是不帶標簽信息的，所以系統需要進入其中找到這些相關信息。比如，在全網所有的圖片、社交媒體、視頻片段和原聲廣告中，將某個特定的人出現的場景都截取出來，這其中就需要CV的助力。完成了兩項最基礎也最難的工作之外，機器就能接續實現在線剪輯、預覽和渲染，直至生成整個視頻。當然，整個過程都免不了機器學習的支持。

“相對其他公司來說，智影這款API產品在物體識別的范圍、種類、精度和穩健性上都算是最領先的。”康洪文頗有底氣的如此表述。

內容視頻化會給未來產業結構帶來哪些影響？

當問及這個問題時，康洪文向雷鋒網表示，這是一個很大的問題。

“它應該會帶來整個產業結構的改變。”康洪文拿Google舉了個例子。

Google之所以能成為Google，一大原因在于其對文本的結構化處理的能力。以Google Search為核心，在其周圍還有Index技術、Adwords業務等，所有這些都建立在對文本的深度理解之上。

然而，隨著用戶越來越依賴大信息量的視頻內容，并逐漸習慣短視頻對文本和圖像的取代，在目前視頻內容暫時還缺失結構化方案的過渡階段，在行業發展到一定程度之后，必然會產生一類對視頻內容提供結構化或標準化處理的方案商公司。

而這個過程有趣的地方在于，提供AI技術方案商的公司不會“閉門造車”或“自個玩自個”，他們會逐漸將自己的應用開放給第三方開發者，媒體甚至所有人（慧川智能已經將智影開放出去了）。當“信息視頻化”發展到一定規模之后，必將有更多的人參與進來并使用這些產品，這一過程又將產生足量的數據，反過來即會刺激整個行業的爆發性增長，直至巨頭的出現。

康洪文說，“如果我們是賦能的一方的話，肯定會創造更大的價值。”

結語

談及未來可能會遭遇的競爭，康洪文表現的非常自信，“因為任何一家AI公司，同一種算法是不可能立馬被應用在其他領域之上的。每個應用領域都能催生很多的技術細節，所有公司都需要持續不斷的去解決技術上出現的挑戰和困難。它跟產品經理時代，或者運營驅動產品的公司不一樣，不是看了它的產品模式就能學會的。”

事實上，目前國內也有一些創業公司在做一些消費級視頻的AI應用，如給視頻信息做標簽化從而達到精準廣告投放的效果。在康洪文看來，這些技術應用更多的是一種“任務驅動”。機器可能會對命令型任務完成的很好，但仍然不會增加對視頻內容的理解。

隨著機器學習能力的增強，AI在一些專項任務上已經表現出超越人類的特質，如AlphaGo對弈，CT圖像的識別，圖片情景的分類等。一直以來，人類對AI的理解是僅限于做一些機械化的工作，但在康洪文看來，隨著機器人對專項任務的本質的理解加深之后，就能獲得創造力的延伸，如譜曲機器人可達到以假亂真的程度，機器人寫詩超過人類等等。AI在其“可做事情”和“不可做事情”之間，界限正變得慢慢模糊。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

李秀琴

記者

跟蹤Fintech和區塊鏈（微信：cqmm16，備注身份姓名來意，thx）

掃描關注作者微信

發私信

當月熱門文章