中科深智：虛擬人，下一代操作系統(tǒng)的入口？

時(shí)間：2023.04.15 來源：人民日報(bào)客戶端作者：刺猬公社

文｜世昕

編｜石燦

驅(qū)動(dòng)虛擬人的核心能力是什么？

在很多人的眼中，是A soul背后的中之人，那是動(dòng)捕技術(shù)的集大成者，只需要通過穿戴設(shè)備、攝像頭，人類便能操縱虛擬人模型自由活動(dòng)起來；另一種方式則要復(fù)雜得多，即類似做3D動(dòng)畫的手段，用豐富的動(dòng)作表情庫加持虛擬人的驅(qū)動(dòng)，事實(shí)上是一種“剪輯”行為。

盡管目前兩種驅(qū)動(dòng)技術(shù)已經(jīng)廣泛運(yùn)用于虛擬人領(lǐng)域中，但在中科深智創(chuàng)始人兼CEO成維忠的眼里，它們并不是虛擬人領(lǐng)域的原生技術(shù)，“這兩種技術(shù)只是階段性的產(chǎn)物，是萬不得已才會(huì)用的?！?/p>

換句話說，從更深層次的角度出發(fā)，這兩種技術(shù)并不能賦予虛擬人“靈魂”，既達(dá)不到高效的驅(qū)動(dòng)，高昂的成本也會(huì)讓虛擬人的應(yīng)用場景更加受限。在成維忠和中科深智看來，真正能賦予虛擬人“靈魂”的，正是目前火熱的生成式AI技術(shù)。

中科深智創(chuàng)始人兼CEO成維忠

這并不是對當(dāng)下潮流的一次跟風(fēng)。中科深智成立于2016年4月，彼時(shí)XR概念興起，對于下一代互聯(lián)網(wǎng)的構(gòu)想也在業(yè)內(nèi)迎來討論，盡管還沒有元宇宙等概念，但3D的、沉浸式的網(wǎng)絡(luò)體驗(yàn)開始被廣泛提及，VR等設(shè)備的出現(xiàn)及爆火就是最好的例證。也正是從那時(shí)開始，初音未來、洛天依等虛擬偶像開始進(jìn)入公眾視野，“虛擬人”行業(yè)初現(xiàn)萌芽。

在經(jīng)歷過移動(dòng)電商、數(shù)字營銷等新行業(yè)的連續(xù)創(chuàng)業(yè)之后，成維忠將目光瞄準(zhǔn)了這一領(lǐng)域，參與進(jìn)未來網(wǎng)絡(luò)世界的構(gòu)建令人興奮，此前在游戲行業(yè)的經(jīng)歷也為他提供了經(jīng)驗(yàn)，于是，中科深智誕生了。在早期構(gòu)想里，成維忠和團(tuán)隊(duì)希望，借助軟件和算法，助力3D內(nèi)容的生產(chǎn)與創(chuàng)作，而虛擬人的動(dòng)作表情驅(qū)動(dòng)則是其中的重點(diǎn)，并逐漸成為了中科深智最核心的技術(shù)點(diǎn)。

時(shí)隔七年，中科深智已經(jīng)成長為國內(nèi)頭部的虛擬人公司，在虛擬人驅(qū)動(dòng)領(lǐng)域擁有著相對成熟的技術(shù)，并且在B端的商業(yè)化也取得了不錯(cuò)的進(jìn)展，也是資本市場最為關(guān)注的虛擬人公司之一。而真正引起刺猬公社注意的是，中科深智早從創(chuàng)業(yè)之初開始就將AI技術(shù)作為虛擬人驅(qū)動(dòng)的最佳解決方案，正如前文提到的，成維忠認(rèn)為，AI才是驅(qū)動(dòng)虛擬人的原生技術(shù)。

在大語言模型與AIGC創(chuàng)業(yè)成為熱潮的今天，中科深智已經(jīng)做了好幾年的“AIGC”。從某種角度來講，這其實(shí)是一家AI領(lǐng)域的創(chuàng)業(yè)公司，并且已經(jīng)在技術(shù)和商業(yè)上卓有成效。

一個(gè)初春午后，刺猬公社（ID：ciweigongshe）來到了豐臺(tái)科技園總部基地，不同于互聯(lián)網(wǎng)公司產(chǎn)業(yè)園的摩登氣息，這里更加靜謐嚴(yán)肅，園區(qū)內(nèi)的大多數(shù)公司也都是技術(shù)公司，通信、建筑、電子，硬核氣息撲面而來，中科深智的總部就設(shè)置在這里。

最近，成維忠在社交媒體上很活躍，同時(shí)頻繁地出現(xiàn)在國內(nèi)各大AI相關(guān)的論壇中，對于ChatGPT及大語言模型等話題，他有著許多新穎的觀點(diǎn)，這一次的拜訪，也是希望能跟他聊一聊虛擬人領(lǐng)域的AIGC發(fā)展。

“從本質(zhì)上來講，我們是做生成式AI的。”成維忠介紹，正如ChatGPT等產(chǎn)品背后的大語言模型一樣，中科深智的核心技術(shù)同樣是以大模型為基底的，但不同的是，他們依賴的是多模態(tài)大模型，即自然語言、3D動(dòng)作表情等多個(gè)模塊組成的大模型產(chǎn)物。

“我們自研發(fā)了CLAP模型，也是一個(gè)預(yù)訓(xùn)練模型?！比绻f風(fēng)靡全球的clip模型解決的是從語言到圖像的問題，那么中科深智的CLAP大模型則是在3D動(dòng)作上進(jìn)發(fā)，簡單來講，用自然語言輸入指令，虛擬人就能在多模態(tài)大模型的作用下生成連貫的動(dòng)作與表情，這看似是一種AI生成動(dòng)畫的方式，但底層邏輯和技術(shù)難度要更復(fù)雜。

據(jù)成維忠介紹，在目前許多AI生成動(dòng)畫的產(chǎn)品研發(fā)上，其實(shí)是“幀視頻”或者“幀動(dòng)畫”，即用大模型生成不同的視覺圖像或者內(nèi)容，再通過AI技術(shù)進(jìn)行組合，“本質(zhì)上是個(gè)2D技術(shù)”。這與虛擬人驅(qū)動(dòng)中的動(dòng)作表情庫路徑大致類似，即對已有的動(dòng)作表情數(shù)據(jù)進(jìn)行剪輯組合，并非真正依靠語言、文本輸入，只不過“剪輯師”和“原畫師”變成了AI。

中科深智想要走的，是3D路徑，即依靠自然語言輸入實(shí)時(shí)生成動(dòng)作表情，再依靠渲染引擎實(shí)現(xiàn)精美的視覺表現(xiàn)。簡單來講，在clap模型的驅(qū)動(dòng)下，一個(gè)虛擬人形象是真正擁有“骨骼”和“面部神經(jīng)”的，并且它們是真正能動(dòng)起來的，這依賴于大量的數(shù)據(jù)學(xué)習(xí)，身體關(guān)節(jié)、運(yùn)動(dòng)軌跡、面部表情，甚至眼神，都是大模型需要去學(xué)習(xí)的數(shù)據(jù)。

通過模型，AI教會(huì)虛擬人如何“動(dòng)作”，再通過自然語言輸入指令，實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng)，再通過3D渲染引擎，進(jìn)行圖像輸出，這就是中科深智做虛擬人的核心邏輯。

“就像文本和圖像生成一樣，我們的內(nèi)容輸出同樣學(xué)習(xí)大量的子集數(shù)據(jù)，并且通過合理的順序進(jìn)行生產(chǎn)，但不同的是，我們還需要一個(gè)時(shí)間軸，在3D虛擬人動(dòng)作生成上，時(shí)間必須要卡的精準(zhǔn)，不能出現(xiàn)錯(cuò)誤。”這也是技術(shù)難點(diǎn)之一，圍繞這些問題，中科深智進(jìn)行了大量的技術(shù)研究，最終研發(fā)出了自己的多模態(tài)虛擬人驅(qū)動(dòng)業(yè)務(wù)中臺(tái)Motionverse。

“我們的參數(shù)量是10個(gè)億左右?！背删S忠告訴刺猬公社，盡管跟GPT系列的大語言模型還差很多個(gè)數(shù)量級，但在虛擬人驅(qū)動(dòng)以及3D內(nèi)容生成領(lǐng)域，中科深智已經(jīng)是相對領(lǐng)先，但數(shù)據(jù)的需求量還在不斷增加，數(shù)據(jù)量、算力資源始終是目前AIGC公司最需要的，伴隨參數(shù)量、數(shù)據(jù)量的擴(kuò)大，也能生成更優(yōu)質(zhì)的動(dòng)作表情。

“現(xiàn)如今我們已經(jīng)能實(shí)現(xiàn)不錯(cuò)的單人交互了，效果已經(jīng)很好了。雙人交互今年年底也會(huì)有突破，但仍需要時(shí)間?！痹诔删S忠看來，伴隨ChatGPT等大語言模型的成熟，虛擬人驅(qū)動(dòng)技術(shù)也將迎來更快的發(fā)展。

從市場端來看，這種變化已經(jīng)在實(shí)時(shí)發(fā)生，相比往年的高昂價(jià)格，在AI技術(shù)、視覺技術(shù)的加持下，虛擬人的成本已經(jīng)大大降低，“今年，單個(gè)虛擬人制作的市場價(jià)格應(yīng)該是在5萬，不會(huì)超過5萬，到今年明年也許是1萬，也許會(huì)更便宜?！?/p>

伴隨成本的下降，越來越多的公司開始使用虛擬人，在技術(shù)的加持下，虛擬主播、虛擬客服越發(fā)常見，中科深智也連續(xù)幾年實(shí)現(xiàn)千萬量級的營收。

但這一過程是艱難且漫長的，2016年早早入局，但中科深智一直專注在底層技術(shù)研發(fā)，沒有做太多商業(yè)化嘗試，早期研發(fā)費(fèi)用一直是自掏腰包。直到2019年，第一款成熟的虛擬人驅(qū)動(dòng)產(chǎn)品問世，中科深智的商業(yè)化進(jìn)程開始，在虛擬直播、電商領(lǐng)域的B端攻城略地，2020年，公司也迎來了第一筆融資。

現(xiàn)如今在電商虛擬直播領(lǐng)域，中科深智已經(jīng)達(dá)到了70%的市場份額，并于近期升級了虛擬人直播工具百寶箱“自動(dòng)播”，將為電商平臺(tái)提供虛擬人主播、虛擬人客服、虛擬直播間等技術(shù)支持。這也與成維忠的下一個(gè)構(gòu)想息息相關(guān)，他認(rèn)為，虛擬人不僅僅只是數(shù)字產(chǎn)品，更代表著下一代人機(jī)交互的新模式。

“我們最近在研究一個(gè)領(lǐng)域，即NUI，自然用戶界面，我認(rèn)為未來的使用場景也非常大?！卑殡S大語言模型及跨模態(tài)大模型等AI技術(shù)的成熟，與AI的多輪對話和實(shí)時(shí)交互不再是幻想，ChatGPT等產(chǎn)品展現(xiàn)出的強(qiáng)大理解能力與思維能力更讓AI擁有了與人類平等交流的機(jī)會(huì)。

那么在語言模型與3D視覺技術(shù)成熟的今天，我們能否讓AI以虛擬人的形象與我們展開對話，甚至服務(wù)呢？

成維忠的答案是可以。

NUI即是人機(jī)交互的新表現(xiàn)形式，設(shè)想一下，在以后的線上體驗(yàn)中，虛擬人代替功能菜單，你只需要一句指令就能調(diào)動(dòng)相對應(yīng)的功能，如同《鋼鐵俠》中的賈維斯一樣，人機(jī)交互的效率、體驗(yàn)都將大大提升。中科深智目前在做的就是類似的事情，無論是電商領(lǐng)域的虛擬直播間還是虛擬人主播、客服，都是在進(jìn)行NUI的初步嘗試，讓虛擬人取代傳統(tǒng)的GUI（圖像用戶界面），或許只是時(shí)間問題。

中科深智的虛擬人展廳

成維忠告訴我們，大模型的變革或許代表著新時(shí)代操作系統(tǒng)的出現(xiàn)，“操作系統(tǒng)里面最核心的是兩點(diǎn)，一點(diǎn)它有一個(gè)人機(jī)交互界面，另外一點(diǎn)有一個(gè)資源和應(yīng)用的管理系統(tǒng)?！贝笳Z言模型就是在人機(jī)交互及數(shù)據(jù)資源調(diào)配上的一次重大進(jìn)步，在微軟、谷歌、OpenAI等巨頭的努力之下，操作系統(tǒng)正在構(gòu)建，而中科深智或許能夠憑借自己的多模態(tài)驅(qū)動(dòng)技術(shù)讓NUI成為現(xiàn)實(shí)。

不過這都是后話了。對于中科深智來說，更吸引他們的是NUI未來的商業(yè)化場景，現(xiàn)如今虛擬人能夠應(yīng)用于娛樂、帶貨等場景，在未來NUI成熟的情況下，服務(wù)類的場景或許都能迎來虛擬人的進(jìn)入，而在游戲、教育等領(lǐng)域，虛擬人或許也會(huì)實(shí)現(xiàn)突破。

但制約著這些設(shè)想的仍舊是技術(shù)?！澳壳暗耐袋c(diǎn)仍舊是技術(shù)，很多東西還沒法做到，但一旦實(shí)現(xiàn)突破，產(chǎn)業(yè)或許將迎來大爆發(fā)?！笔袌鲂枨笈c技術(shù)之間是相輔相成的，需求或許已經(jīng)存在了，仍需要不斷地研發(fā)去填補(bǔ)供給端的不足。

在對談的最后，我們來到了中科深智的演示大廳，這里位于地下一層，空間里放置著幾塊大屏幕，屏幕中是幾個(gè)虛擬人，現(xiàn)實(shí)與虛擬一線之隔。我們跟一個(gè)虛擬人展開對話，在語言指令下，她能夠?qū)崟r(shí)跟你對談、聊天，為你跳舞、講笑話，盡管動(dòng)作目前還無法和真人一樣，但“人工智能”的樣子已深入人心。未來，作為下一代互聯(lián)網(wǎng)的NUI，或許將無處不在。

（本文頭圖由計(jì)算美學(xué)產(chǎn)品“畫宇宙”AI生成）