文|世昕
編|石燦
驅(qū)動(dòng)虛擬人的核心能力是什么?
在很多人的眼中,是A soul背后的中之人,那是動(dòng)捕技術(shù)的集大成者,只需要通過穿戴設(shè)備、攝像頭,人類便能操縱虛擬人模型自由活動(dòng)起來;另一種方式則要復(fù)雜得多,即類似做3D動(dòng)畫的手段,用豐富的動(dòng)作表情庫加持虛擬人的驅(qū)動(dòng),事實(shí)上是一種“剪輯”行為。
盡管目前兩種驅(qū)動(dòng)技術(shù)已經(jīng)廣泛運(yùn)用于虛擬人領(lǐng)域中,但在中科深智創(chuàng)始人兼CEO成維忠的眼里,它們并不是虛擬人領(lǐng)域的原生技術(shù),“這兩種技術(shù)只是階段性的產(chǎn)物,是萬不得已才會(huì)用的?!?/p>
換句話說,從更深層次的角度出發(fā),這兩種技術(shù)并不能賦予虛擬人“靈魂”,既達(dá)不到高效的驅(qū)動(dòng),高昂的成本也會(huì)讓虛擬人的應(yīng)用場景更加受限。在成維忠和中科深智看來,真正能賦予虛擬人“靈魂”的,正是目前火熱的生成式AI技術(shù)。
中科深智創(chuàng)始人兼CEO成維忠
這并不是對當(dāng)下潮流的一次跟風(fēng)。中科深智成立于2016年4月,彼時(shí)XR概念興起,對于下一代互聯(lián)網(wǎng)的構(gòu)想也在業(yè)內(nèi)迎來討論,盡管還沒有元宇宙等概念,但3D的、沉浸式的網(wǎng)絡(luò)體驗(yàn)開始被廣泛提及,VR等設(shè)備的出現(xiàn)及爆火就是最好的例證。也正是從那時(shí)開始,初音未來、洛天依等虛擬偶像開始進(jìn)入公眾視野,“虛擬人”行業(yè)初現(xiàn)萌芽。
在經(jīng)歷過移動(dòng)電商、數(shù)字營銷等新行業(yè)的連續(xù)創(chuàng)業(yè)之后,成維忠將目光瞄準(zhǔn)了這一領(lǐng)域,參與進(jìn)未來網(wǎng)絡(luò)世界的構(gòu)建令人興奮,此前在游戲行業(yè)的經(jīng)歷也為他提供了經(jīng)驗(yàn),于是,中科深智誕生了。在早期構(gòu)想里,成維忠和團(tuán)隊(duì)希望,借助軟件和算法,助力3D內(nèi)容的生產(chǎn)與創(chuàng)作,而虛擬人的動(dòng)作表情驅(qū)動(dòng)則是其中的重點(diǎn),并逐漸成為了中科深智最核心的技術(shù)點(diǎn)。
時(shí)隔七年,中科深智已經(jīng)成長為國內(nèi)頭部的虛擬人公司,在虛擬人驅(qū)動(dòng)領(lǐng)域擁有著相對成熟的技術(shù),并且在B端的商業(yè)化也取得了不錯(cuò)的進(jìn)展,也是資本市場最為關(guān)注的虛擬人公司之一。而真正引起刺猬公社注意的是,中科深智早從創(chuàng)業(yè)之初開始就將AI技術(shù)作為虛擬人驅(qū)動(dòng)的最佳解決方案,正如前文提到的,成維忠認(rèn)為,AI才是驅(qū)動(dòng)虛擬人的原生技術(shù)。
在大語言模型與AIGC創(chuàng)業(yè)成為熱潮的今天,中科深智已經(jīng)做了好幾年的“AIGC”。從某種角度來講,這其實(shí)是一家AI領(lǐng)域的創(chuàng)業(yè)公司,并且已經(jīng)在技術(shù)和商業(yè)上卓有成效。
一個(gè)初春午后,刺猬公社(ID:ciweigongshe)來到了豐臺(tái)科技園總部基地,不同于互聯(lián)網(wǎng)公司產(chǎn)業(yè)園的摩登氣息,這里更加靜謐嚴(yán)肅,園區(qū)內(nèi)的大多數(shù)公司也都是技術(shù)公司,通信、建筑、電子,硬核氣息撲面而來,中科深智的總部就設(shè)置在這里。
最近,成維忠在社交媒體上很活躍,同時(shí)頻繁地出現(xiàn)在國內(nèi)各大AI相關(guān)的論壇中,對于ChatGPT及大語言模型等話題,他有著許多新穎的觀點(diǎn),這一次的拜訪,也是希望能跟他聊一聊虛擬人領(lǐng)域的AIGC發(fā)展。
“從本質(zhì)上來講,我們是做生成式AI的。”成維忠介紹,正如ChatGPT等產(chǎn)品背后的大語言模型一樣,中科深智的核心技術(shù)同樣是以大模型為基底的,但不同的是,他們依賴的是多模態(tài)大模型,即自然語言、3D動(dòng)作表情等多個(gè)模塊組成的大模型產(chǎn)物。
“我們自研發(fā)了CLAP模型,也是一個(gè)預(yù)訓(xùn)練模型?!比绻f風(fēng)靡全球的clip模型解決的是從語言到圖像的問題,那么中科深智的CLAP大模型則是在3D動(dòng)作上進(jìn)發(fā),簡單來講,用自然語言輸入指令,虛擬人就能在多模態(tài)大模型的作用下生成連貫的動(dòng)作與表情,這看似是一種AI生成動(dòng)畫的方式,但底層邏輯和技術(shù)難度要更復(fù)雜。
據(jù)成維忠介紹,在目前許多AI生成動(dòng)畫的產(chǎn)品研發(fā)上,其實(shí)是“幀視頻”或者“幀動(dòng)畫”,即用大模型生成不同的視覺圖像或者內(nèi)容,再通過AI技術(shù)進(jìn)行組合,“本質(zhì)上是個(gè)2D技術(shù)”。這與虛擬人驅(qū)動(dòng)中的動(dòng)作表情庫路徑大致類似,即對已有的動(dòng)作表情數(shù)據(jù)進(jìn)行剪輯組合,并非真正依靠語言、文本輸入,只不過“剪輯師”和“原畫師”變成了AI。
中科深智想要走的,是3D路徑,即依靠自然語言輸入實(shí)時(shí)生成動(dòng)作表情,再依靠渲染引擎實(shí)現(xiàn)精美的視覺表現(xiàn)。簡單來講,在clap模型的驅(qū)動(dòng)下,一個(gè)虛擬人形象是真正擁有“骨骼”和“面部神經(jīng)”的,并且它們是真正能動(dòng)起來的,這依賴于大量的數(shù)據(jù)學(xué)習(xí),身體關(guān)節(jié)、運(yùn)動(dòng)軌跡、面部表情,甚至眼神,都是大模型需要去學(xué)習(xí)的數(shù)據(jù)。
通過模型,AI教會(huì)虛擬人如何“動(dòng)作”,再通過自然語言輸入指令,實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng),再通過3D渲染引擎,進(jìn)行圖像輸出,這就是中科深智做虛擬人的核心邏輯。
“就像文本和圖像生成一樣,我們的內(nèi)容輸出同樣學(xué)習(xí)大量的子集數(shù)據(jù),并且通過合理的順序進(jìn)行生產(chǎn),但不同的是,我們還需要一個(gè)時(shí)間軸,在3D虛擬人動(dòng)作生成上,時(shí)間必須要卡的精準(zhǔn),不能出現(xiàn)錯(cuò)誤。”這也是技術(shù)難點(diǎn)之一,圍繞這些問題,中科深智進(jìn)行了大量的技術(shù)研究,最終研發(fā)出了自己的多模態(tài)虛擬人驅(qū)動(dòng)業(yè)務(wù)中臺(tái)Motionverse。
“我們的參數(shù)量是10個(gè)億左右?!背删S忠告訴刺猬公社,盡管跟GPT系列的大語言模型還差很多個(gè)數(shù)量級,但在虛擬人驅(qū)動(dòng)以及3D內(nèi)容生成領(lǐng)域,中科深智已經(jīng)是相對領(lǐng)先,但數(shù)據(jù)的需求量還在不斷增加,數(shù)據(jù)量、算力資源始終是目前AIGC公司最需要的,伴隨參數(shù)量、數(shù)據(jù)量的擴(kuò)大,也能生成更優(yōu)質(zhì)的動(dòng)作表情。
“現(xiàn)如今我們已經(jīng)能實(shí)現(xiàn)不錯(cuò)的單人交互了,效果已經(jīng)很好了。雙人交互今年年底也會(huì)有突破,但仍需要時(shí)間?!痹诔删S忠看來,伴隨ChatGPT等大語言模型的成熟,虛擬人驅(qū)動(dòng)技術(shù)也將迎來更快的發(fā)展。
從市場端來看,這種變化已經(jīng)在實(shí)時(shí)發(fā)生,相比往年的高昂價(jià)格,在AI技術(shù)、視覺技術(shù)的加持下,虛擬人的成本已經(jīng)大大降低,“今年,單個(gè)虛擬人制作的市場價(jià)格應(yīng)該是在5萬,不會(huì)超過5萬,到今年明年也許是1萬,也許會(huì)更便宜?!?/p>
伴隨成本的下降,越來越多的公司開始使用虛擬人,在技術(shù)的加持下,虛擬主播、虛擬客服越發(fā)常見,中科深智也連續(xù)幾年實(shí)現(xiàn)千萬量級的營收。
但這一過程是艱難且漫長的,2016年早早入局,但中科深智一直專注在底層技術(shù)研發(fā),沒有做太多商業(yè)化嘗試,早期研發(fā)費(fèi)用一直是自掏腰包。直到2019年,第一款成熟的虛擬人驅(qū)動(dòng)產(chǎn)品問世,中科深智的商業(yè)化進(jìn)程開始,在虛擬直播、電商領(lǐng)域的B端攻城略地,2020年,公司也迎來了第一筆融資。
現(xiàn)如今在電商虛擬直播領(lǐng)域,中科深智已經(jīng)達(dá)到了70%的市場份額,并于近期升級了虛擬人直播工具百寶箱“自動(dòng)播”,將為電商平臺(tái)提供虛擬人主播、虛擬人客服、虛擬直播間等技術(shù)支持。這也與成維忠的下一個(gè)構(gòu)想息息相關(guān),他認(rèn)為,虛擬人不僅僅只是數(shù)字產(chǎn)品,更代表著下一代人機(jī)交互的新模式。
“我們最近在研究一個(gè)領(lǐng)域,即NUI,自然用戶界面,我認(rèn)為未來的使用場景也非常大?!卑殡S大語言模型及跨模態(tài)大模型等AI技術(shù)的成熟,與AI的多輪對話和實(shí)時(shí)交互不再是幻想,ChatGPT等產(chǎn)品展現(xiàn)出的強(qiáng)大理解能力與思維能力更讓AI擁有了與人類平等交流的機(jī)會(huì)。
那么在語言模型與3D視覺技術(shù)成熟的今天,我們能否讓AI以虛擬人的形象與我們展開對話,甚至服務(wù)呢?
成維忠的答案是可以。
NUI即是人機(jī)交互的新表現(xiàn)形式,設(shè)想一下,在以后的線上體驗(yàn)中,虛擬人代替功能菜單,你只需要一句指令就能調(diào)動(dòng)相對應(yīng)的功能,如同《鋼鐵俠》中的賈維斯一樣,人機(jī)交互的效率、體驗(yàn)都將大大提升。中科深智目前在做的就是類似的事情,無論是電商領(lǐng)域的虛擬直播間還是虛擬人主播、客服,都是在進(jìn)行NUI的初步嘗試,讓虛擬人取代傳統(tǒng)的GUI(圖像用戶界面),或許只是時(shí)間問題。
中科深智的虛擬人展廳
成維忠告訴我們,大模型的變革或許代表著新時(shí)代操作系統(tǒng)的出現(xiàn),“操作系統(tǒng)里面最核心的是兩點(diǎn),一點(diǎn)它有一個(gè)人機(jī)交互界面,另外一點(diǎn)有一個(gè)資源和應(yīng)用的管理系統(tǒng)?!贝笳Z言模型就是在人機(jī)交互及數(shù)據(jù)資源調(diào)配上的一次重大進(jìn)步,在微軟、谷歌、OpenAI等巨頭的努力之下,操作系統(tǒng)正在構(gòu)建,而中科深智或許能夠憑借自己的多模態(tài)驅(qū)動(dòng)技術(shù)讓NUI成為現(xiàn)實(shí)。
不過這都是后話了。對于中科深智來說,更吸引他們的是NUI未來的商業(yè)化場景,現(xiàn)如今虛擬人能夠應(yīng)用于娛樂、帶貨等場景,在未來NUI成熟的情況下,服務(wù)類的場景或許都能迎來虛擬人的進(jìn)入,而在游戲、教育等領(lǐng)域,虛擬人或許也會(huì)實(shí)現(xiàn)突破。
但制約著這些設(shè)想的仍舊是技術(shù)?!澳壳暗耐袋c(diǎn)仍舊是技術(shù),很多東西還沒法做到,但一旦實(shí)現(xiàn)突破,產(chǎn)業(yè)或許將迎來大爆發(fā)?!笔袌鲂枨笈c技術(shù)之間是相輔相成的,需求或許已經(jīng)存在了,仍需要不斷地研發(fā)去填補(bǔ)供給端的不足。
在對談的最后,我們來到了中科深智的演示大廳,這里位于地下一層,空間里放置著幾塊大屏幕,屏幕中是幾個(gè)虛擬人,現(xiàn)實(shí)與虛擬一線之隔。我們跟一個(gè)虛擬人展開對話,在語言指令下,她能夠?qū)崟r(shí)跟你對談、聊天,為你跳舞、講笑話,盡管動(dòng)作目前還無法和真人一樣,但“人工智能”的樣子已深入人心。未來,作為下一代互聯(lián)網(wǎng)的NUI,或許將無處不在。
(本文頭圖由計(jì)算美學(xué)產(chǎn)品“畫宇宙”AI生成)
分享到: