成人av在线资源一区,亚洲av日韩av一区,欧美丰满熟妇乱XXXXX图片,狠狠做五月深爱婷婷伊人,桔子av一区二区三区,四虎国产精品永久在线网址,国产尤物精品人妻在线,中文字幕av一区二区三区欲色
    您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
    此為臨時鏈接,僅用于文章預覽,將在時失效
    人工智能 正文
    發私信給宗仁
    發送

    1

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    本文作者: 宗仁 2016-12-07 20:20
    導語:根據你提供的圖片內容和想要的風格重新“生成”一張新的圖片,是今年很多濾鏡粉玩過的一個爆火游戲,但如何把這個“游戲”遷移到視頻上?

    根據你提供的圖片內容和想要的風格重新“生成”一張新的圖片,是今年很多濾鏡粉玩過的一個爆火游戲,但如何把這個“游戲”遷移到視頻上,并實現高質量的視頻風格“生成”對于很多人來說并不熟悉,因為市面上這個功能大規模推向濾鏡粉的廠商還并不多,粉絲們對這個技術背后的算法也不甚了解。不過在今年Siggraph Asia 2016上的參展商演講中,騰訊AI Lab聯合清華大學實驗室的團隊,就為我們現場講解了關于視頻風格變換的相關內容。

    演講者,黃浩智,騰訊AI Lab。

    演講提綱

    • 迭代圖像風格轉換

    • 前向圖像風格轉換

    • 迭代視頻風格轉換

    • 前向視頻風格轉換

    • 小結

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    在這之前,圖片風格轉換的問題,傳統的方法:是基于手工提取特征來生成一張新的圖片。而目前比較流行的使用深度學習的方法:是基于深度網絡學習的特征來生成一張新的圖片。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    一. 關于迭代的圖像風格轉換

    今年的CVPR有一篇 oral文章 “Image Style Transfer Using Convolutional Neural Networks”,當時引起了學術界的廣泛關注,講的就是關于迭代的圖像風格變換問題。

    然后我們具體去做的時候,一般是這樣的:

    • 先輸入一張隨機(噪聲)圖,經過VGG—19網絡,可以提取出我們預先定義好的content和style特征。

    • 我們將content特征跟用戶提供的輸入圖像(content image)去比對,將style特征跟另外一張預先設定好的風格圖像(譬如某位大師的一幅油畫)去比對,有了內容的差異和風格的差異后。

    • 我們一步步通過一個叫back  propagation(反向傳播)的過程,從網絡的高層往回傳, 一直傳到我們輸入的那張隨機噪聲圖, 我們就可以去修改這張隨機噪聲圖,使得它跟我們指定的content特征和style特征越來越像。

    • 所以它最后在content 特征上接近于用戶輸入的那張,在style特征上接近于另一張預先設定好的油畫作品等。

    如下圖所示,先用一個VGG—19圖形識別和卷積網絡提取輸入圖片的content和style特征。(這些提取的特征主要用于后面重構隨機輸入得到的結果)

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    當然,實際執行圖片風格轉換的時候,還要考慮產生內容損失和風格損失  

    關于內容表示(CNN特征圖像): 深度神經網絡已經可以抽取高層次(抽象)的信息表征了。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    下面是內容損失函數

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    關于風格表示

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    下面是風格損失函數

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    下圖是流程的展示。 

    ——一開始輸入的隨機噪聲圖,經過中間的(VGG 19)網絡,在不同的層次分別提取的內容和風格特征,跟用戶輸入原圖的內容進行比較,跟預先設定的另一張圖(比如大師的某張油畫圖)的風格進行比較,然后計算出損失函數Ltotal。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    具體的風格變換算法中產生的總的損失=α*內容損失+ β*風格損失。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    但迭代圖像風格變換自有它的缺陷之處。

    • 沒有訓練和自學習的過程;

    • 對每一張新的輸入圖都要重復它迭代更新的過程;

    • 速度慢。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    二. 關于前向圖片風格轉換

    斯坦福大學的 Justin Johnson曾經提出一種使用前向網絡完成圖像風格變換的方法,發表于ECCV 2016。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    在其實踐時,采用的圖片轉換網絡層具體見下:

    • 2個卷積網絡層進行下采樣;

    • 中間5個殘差網絡層;

    • 2個反卷積網絡層進行上采樣。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    損失函數包下面三部分

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    最后的實踐結果如下,質量非常不錯。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    總的來說,使用前向圖片風格轉換

    • 不僅可以保證實時性;

    • 還可以使得(前向式)生成和迭代式在視覺上近似的結果。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    三. 關于迭代視頻風格轉換

    將風格變換技術由圖像向視頻拓展最為直接的方式就是使用圖像風格變換的技術逐幀完成視頻的變換,但是這樣很難保證視頻幀間風格的一致性。為此 Ruder 等人提出了一種迭代式的做法 [Ruder, Manuel, Alexey Dosovitskiy, and Thomas Brox. "Artistic style transfer for videos." arXiv preprint arXiv:1604.08610 (2016)],通過兩幀像素之間的對應關系信息來約束視頻的風格變換。

    不過,迭代式(Ruder et al.)的方法來處理視頻的風格變換考慮了時間域的一致性,但是處理速度非常慢,處理一幀視頻大約需要 3 分鐘。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)


    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    那不考慮時空一致性又是什么結果呢?以靜態圖片轉換為例。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    實驗結果是這樣的

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    總的來說,迭代式(Ruder et. al)的方法來處理視頻的風格變換

    • 考慮了時間的一致性,但處理速度非常慢,處理一幀視頻大約需要3分鐘;

    • 另外其品質還高度依賴光流的精確性。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    四. 關于前向迭代視頻風格轉換

    所以AI Lab嘗試了前向視頻風格遷移

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    我們的方法:

    • 通過大量視頻數據進行訓練;

    • 自動辨別學習效果,并自我優化;

    • 在訓練過程中我們保持了輸出結果的時間一致性。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    最終,騰訊AI Lab

    • 設計了獨特的深度神經網絡;

    • 將風格變換的前向網絡與視頻時空一致性結合起來;

    • 高效地完成高質量的視頻風格變換。 

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    五.  小結

    • 深度神經網絡已經可以抽取高層次(抽象)的信息表征了。

    • 不同網絡層的格拉姆矩陣可以用來表述風格(紋理,筆觸等)。

    • 從圖片進階到視頻(風格的轉換),要注意時空的一致性。

    • 前向神經網絡可以同時抓取風格和時空一致性。

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

    騰訊AI Lab現場揭秘:實時視頻風格轉換是如何生成的|SIGGRAPH Asia 2016 (附PPT)

    分享:
    相關文章

    專注AIR(人工智能+機器人)

    專注人工智能+機器人報道,經驗分享請加微信keatslee8(請注明原因)。 科學的本質是:問一個不恰當的問題,于是走上了通往恰當答案的路。
    當月熱門文章
    最新文章
    請填寫申請人資料
    姓名
    電話
    郵箱
    微信號
    作品鏈接
    個人簡介
    為了您的賬戶安全,請驗證郵箱
    您的郵箱還未驗證,完成可獲20積分喲!
    請驗證您的郵箱
    立即驗證
    完善賬號信息
    您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
    立即設置 以后再說