對話中科深智成維忠：數字人的關鍵是交互，交互的關鍵是大模型

本文作者：王悅

2023-07-31 14:46

導語：“有的數字人企業半年沒接到單，很正常。”

作者丨王悅

編輯丨董子博

“今年的數字人市場迎來了天翻地覆的變化。”中科深智創始人成維忠對目前國內的數字人市場如是評價。

過去，國內數字人企業真正做技術的并不多，大部分以IP打造為主。

出道即巔峰的虛擬美妝達人柳夜熙，一條視頻成本百萬，可現今抖音單條視頻平均只有20萬，后勁不足，不復往昔繁華。

風靡一時的 A-SOUL 曾是虛擬女團天花板，一時風光無限好。然而，5月10 日，其運營團隊突然宣布旗下成員珈樂進入直播休眠，瞬間打破全部幻想。

“有的企業半年沒接到單，很正常。”

從現狀和收效來看，主打人設和劇情并不是長遠發展的模式，技術定力或許是數字人企業未來生存的關鍵所在。

中科深智成立七年多的時間以來，一直專注于 3D 虛擬人技術領域。成維忠一直相信，人是未來 3D 交互的重中之重，而這種與“人”的交互，則必須通過 AI 和大模型來完成。

目前，公司的工作重心在自己研發的 CLAP （對比性語言 - 動作預處理模型）算法上。這種跨模態訓練可以通過文本去設置動作表情，再通過聲音去生成動作表情。在這一點上，中科深智是國內起步較早的一家企業。

5月10日，中科深智發布了兩個大模型，分別包含200億和20億參數，以針對不同用戶的不同需求。成維忠表示，200億和20億兩個參數版本模型，在實際應用場景時，實則與千億模型的效果，實際表現差異不大。

大模型公布后，中科深智還會再將 transformer 進行算法升級，從 language model 升級到 large language model，從傳統的語言解析升級到大語言模型，完成后，虛擬人的語言和表情等效果都會提升。

將數字人和多模態大模型雙劍合璧，不僅是兩項技術的結合，更是1+1>2的相輔相成。

一方面，數字人可以作為更易用的 C 端入口，為大模型提供語音、動作、情感等豐富的多模態數據，形成 “User in the loop”的模式，為大模型形成“數據飛輪”；另一方面，憑借大模型強大的內容理解和生成能力，數字人也能得到“靈魂”，用更強大的“內在”來驅動更好的用戶交互。

近日，AI科技評論與中科深智創始人成維忠進行了一次對話，探討了中科深智在數字人領域一路走來的探索歷程。從最初選擇 3D 虛擬人的堅定，到關鍵核心技術的攻艱，再到大模型發布，以及未來的場景落地，每一步，都是中國數字人企業發展的寫照。

以下是AI科技評論和成維忠的對談實錄，雷峰網(公眾號：雷峰網)在不改變原意的前提下，進行了調整和編輯：

交互是虛擬人的第一性

AI科技評論：從今年的市場狀況來看，交互性低的IP型數字人目前來看并不是一個很好的生意。未來，這種頹勢會反彈嗎？

成維忠：不會反彈，只會更艱難。不論什么風格的虛擬人，它與傳統動畫的分野是很清晰的。傳統動畫是離線的，不注重非實時互動的，發展線路很窄，而虛擬人追求與用戶的實時互動，如果做不到注定要被淘汰。

IP型數字人出現后開始吸引粉絲，用傳統CG方式來做。其實這只有資本的價值，沒有落地產品價值，從根本上講與傳統動畫沒有差別。做到現在來看，他們的處境很艱難，這是可以預見的。

其實，這種困境的原因在于第一性原理沒看清楚，有粉絲當然很好，長得漂亮也好，但是虛擬人首要的是跟用戶之間的互動，沒有這一點，整個生意是走不下去的。

AI科技評論：近幾年，人們對虛擬人的關注有哪些變化？

成維忠：最早大家比較關注虛擬人的形象，前年和去年上半年都關注虛擬人的動作，去年下半年開始關注實時交互性。

數字人的交互性推動我們做語言的解析，也就是從輸入端到最后的成像端，形成一個端到端的解決方案，我們認為技術公司需要干這個事，如果不是端到端的解決方案，將來可能會有較大的問題。

AI科技評論：語言解析具體是怎么做的？

成維忠：從語言的解析部分來看，其實最關鍵的是動作和表情生成技術，其底層都是 transformer 。我們做 transformer 很早， 2020 年初，就把整個的動作、表情生成作為工作的重心，然后底層用的就是 transformer 的算法。

幾年的過程中，我們一直關注基于 transformer 的自然語言處理的發展。早期谷歌的 Bert 出來，效果比較好，在這個過程當中我們也所借鑒。

在做動作表情生成的時候，我們有自己的算法叫 CLAP 算法。最開始做 CLAP 算法的時候，大廠也沒開始做這種跨模態訓練，我們其實很恐慌。因為要通過文本去設置動作表情，然后通過聲音、音速、節奏去生成動作表情，沒人做這個事，可供借鑒的文章也很少，這種探索是非常痛苦的。

直到 OpenAI 在2021年公布了 DALL-E，也是基于 transformer 語言，二者的邏輯有相似之處，給我們吃了定心丸。

AI科技評論：2020年的時候，針對哪種語言架構比較好這一問題是沒有定論的，直到ChatGPT 出來之后，transformer 才變成業界的一個共識。為什么中科深智最早在2019年就開始關注 transformer？

成維忠：其實關注 transformer 前，中科深智從2016年是主做動作捕捉的。

動捕做到2019年，出現兩個大問題：其一，動作捕捉在未來的元宇宙或相關應用中是細分的垂直市場，今年如果有些公司他的重心還是在動捕方面，那他們一定是極端困難的；其二，虛擬人或元宇宙的技術，本質在于 XR+AI，所處時期不同，發展的側重點也不同，兩部分都是不可或缺的。

2019年我們也發現動捕與新出現的 AI 融合度很低，這促使我們去思考選什么樣的技術路徑。隨后，標桿的事件發生，即GPT-2上線，就完全轉到 transformer 上來，我的合伙人宋健敏銳地覺察到這個方向很好，之前我們也有類似的架構，但是學習效率很低、成本高、對團隊的要求也高，但GPT-2很好的解決了學習效率的問題，所以就一直順著這個方向做。

AI科技評論：中科深智的數字人目前有哪些可以落地的商業場景？

成維忠：從商業化的角度來看，我們始終覺得交互是最重要的。順著這個思路，選擇了兩個場景：一是 SaaS 產品，去找大的存量市場，將虛擬人做成中間性很強的產品，比如電商，直接交付給客戶就可以立刻使用；二是賦能傳統的集成商或承包商，幫他們做用戶界面升級，將圖形界面升級成虛擬人，比如銀行。

AI科技評論：除此之外，還有哪些比較有前景的落地場景？

成維忠：如果把數字人看做 AUI，那么現在所有的互聯網和移動互聯網都可以升級，體量是很龐大的。我們今年的工作重心除了算法迭代之外，還會針對數字人交互性的特點，形成多種解決方案。站在交互的角度來講，其本身又可以分為多種方式，比如語音助手和垂直領域落地，它是交互與業務流的結合，跟它的 RPA 之間有深度鏈接，中科深智目前還在研究和探索，背后的市場很大。

大模型是數字人的信號輸入

AI科技評論：有人說大語言模型是大廠的菜，對于小公司來說，用就行了。您如何看待這種說法？

成維忠：其實并不是這樣的，今年二月份的時候，我們對這個問題就看得很明白了。一方面，小公司如果不拿到大語言模型的開源代碼，就無法實現跨模態訓練；另一方面，我們的客戶希望做定制和私有化部署，如果沒有大語言模型，也無法實現這一要求。所以，從二月份開始，我們決定做自己的大語言模型，過去多年的積累也會讓我們的步伐比較快。

AI科技評論：有用戶反饋，目前市面上的大模型無法滿足他們的要求。中科深智做的大模型能否滿足驅動數字人的要求？

成維忠：起步階段，我們就對國內外主流的大模型進行測試，發現幾個問題：第一是調用的速度不能滿足虛擬人的實時交互要求，其實響應速度的問題從原理上來說是解決不了的；第二是國外的模型對于中文的支持度很差，國內的模型雖然調用的速度快，但是在開放性方面存在問題。

而客戶的要求首先則是算力消耗要低，國內用戶對這點很敏感，按照現在各家的報價來推理，我們的用戶是用不起的。

AI科技評論：今年3月， ChatGPT 的 API 開放之后，價格是下降了90%的。

成維忠：但對用戶來說需要頻繁地使用它，其實還是很貴的。所以推理的成本和推理的速度是我的客戶考慮的點。

這也是我們做了200億和20億參數模型的原因。200億參數的推理用的是一張 V100 顯卡，20億參數模型用了一張3090顯卡，而且有在其中加冗余，在暴力測試的過程中，3060的顯卡就可以把模型跑起來。

而且，除了成本和推理速度問題，客戶并不關心大模型是否能夠解數學題、下棋，最關鍵的是你寫出來的中文是不是靠譜，不能帶翻譯腔。

第三點就是私有化部署的問題。當下用戶在使用的時候，實際使用更多的還是大模型的泛化能力，能得到的內容，和自己平時的 Know how 差不多，最終技術進步的結果用戶很難感知到；而我們發現了這個問題，對應設計了兩個模型——20億參數和200億參數。

其實，大家會有擔心，參數量小了，模型效果會不會很差。而在5月10日的發布會上，我們把20億的模型和ChatGPT、文心一言進行了對比。實測之后證明，效果肯定會稍微差一點，但從使用的角度來看是足夠的。

所以，針對中小客戶，首推使用一張3090顯卡的20億參數模型，它的響應速度很快。

AI科技評論：20億參數模型的能力還是非常強的。那大語言模型和數字人結合，有哪些創新的形式嗎？

成維忠：后面，我們會發布一個虛擬直播帶貨的產品，叫全能智播，直播間中是真人主播和虛擬主播一起帶貨。虛擬主播連接大模型，真實主播可以給虛擬主播下指令，都是用大模型來驅動的。它不僅僅是主播的功能，還是集成了助播、場控、運營及客服功能于一體的全能數字人，真正站在商家角度考慮，達到降本增效的作用。

AI科技評論：抖音目前還是希望接著去挖真人主播的潛力，數字人是他們的優先級嗎？

成維忠：我們是第一家做虛擬直播的，也是第一家鼓勵做虛擬直播商用推廣的。目前，不同的平臺對這個事情的看法是不太一樣的，抖音、天貓、淘寶、京東總體上對虛擬直播持謹慎的態度，因為他們會假設，如果虛擬直播發展太快了，會不會對真人直播造成沖擊。

從長期來說，我覺得平臺對于虛擬直播、虛擬人應該是開放形態。從根本上來講，平臺是拒絕不了虛擬主播這件事的，一方面，大模型對電商的支撐會越來越厲害，但是大語言模型跟真人之間還是要通過虛擬人結合，如果到那個時間點平臺仍然把規則卡得很死就等于把上升空間卡掉了。另一方面，把規則定清晰就可以了。

長期來看，我對它是持樂觀態度的，也仍然需要去探索怎么樣跟平臺、商家、用戶找到共贏的方式。

AI科技評論：這樣看起來，其實大模型就是為數字人提供了一個新的生產力的空間？

成維忠：其實，大模型是數字人的一種輸入方式。我們核心的 CLAP 算法可以支持多種驅動，比如動作的傳感器，把信號輸入到 CLAP 中也可以生成動作表情。除此之外，也可以用攝像頭、動物傳感器作為 CLAP 算法的輸入。

大模型是它輸入方式的一種，這種輸入方式很重要，我們認為，未來很多的場景都是以大模型為主的，這就是為什么我們把它作為重心的原因。

3D虛擬人的長期主義者

AI科技評論：公司成立之初，在3D超寫實和 DeepFake 兩條路中，為什么選擇前者？

成維忠：我們公司于2016年4月份成立，到現在為止七年多的時間里，從大方向上來講，我們只做了一件事，就是3D虛擬人。

當初選擇這一方向的原因也比較簡單，主要是基于對行業發展的兩個預測：一是，傳統互聯網向下一步發展所采用的底層技術會發生較大的變化，過去是以圖文為主的2D方式，而下一代的發展會過渡到3D技術；二是，在純3D內容環境中，必然涉及人、貨、場三大部分，我們認為人是其中最關鍵的因素。因為如果要完成人機交互的話，不會像現在這樣，人和靜態的3D環境交互，中間一定需要交互的介質，而人就是3D交互的介質。

在這樣的兩個預判之下，2016年成立公司之初，我們就決定將3D的數字人當做今后發展的立足點。在行業中，有這樣的定位，而且是偏技術的公司，我們應該是相對早的。

AI科技評論：在中國確實沒有太多做數字人技術的公司，很多都是拿技術套產品，走的是產品化和工程化的思路，并不以技術見長。

成維忠：是的。甚至有一些公司的重心都不是在做工程化和產品化，而是做虛擬數字人IP。這種其實用不到數字人技術，更多的是傳統的 CG 動畫技術，只不過被冠以數字人的形式，但從行業的角度來講，真正做數字人技術的公司還是很少的。

AI科技評論：之前了解到一些做虛擬數字人IP的公司，他們計劃把公司下半年的戰略重心從數字人轉到數字空間上，主要還是因為營收不是特別好，甚至有的數字人公司已經半年沒有接到訂單了，這種情況是否屬實？

成維忠：根據我的了解，這種情況蠻多的，今年的數字人市場迎來了天翻地覆的變化。

類似于把戰略重心從數字人轉到數字空間上這樣的做法，其背后的原因主要是當下政策對元宇宙項目有很多積極的引導，其傾向于宏大場景的產品。針對這一做法，我們也有思考過是否要從場景入手，中間有過動搖，但最終決定不改變方向。

不改變的主要原因有兩點：一方面，從長遠看，公司成立之初的兩個判斷依然成立。如果有一天元宇宙真的落地了，人仍是最關鍵的因素；另一方面，中科深智還是對人工智能交互關注得比較多，去年我們就感知到，未來虛擬人和場景的結合只是一方面，更多的是與各種人工智能的結合，虛擬人就能滿足人機交互的需要。

所以這也是為什么大語言模型出現后，我們能夠在短時間內跟上。大語言模型出現之后，人機交互發生了很大變化，這一領域可以將虛擬人的技術優勢發揮出來。

AI科技評論：中科深智目前的工作重點在哪，是如何側重的？

成維忠：中科深智現在的工作重心在 CLAP 上，等大模型公布后還會再從 transformer 算法升級，從 language model 升級到 large language，在 CLAP 基礎上的兩個L，從傳統的語言解析升級到大語言模型，完成后虛擬人的語言和表情等功能都會提升。

（未來，雷峰網會關注更多數字人賽道優秀創業者，歡迎和本文作者：s1060788086，交流認知，互通有無。）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

王悅

主筆

發私信

當月熱門文章