編輯導語:數字化時代,你是否會有科幻作品中的虛擬人的想象,作者從八個方面分析瞭虛擬人的發展和未來的趨勢,我們一起來看下吧。創造栩栩如生、真情實感的數字化人類,既是《銀翼殺手》等科幻作品的想象,也是數字內容創作的不懈追求。近年,“造人”緊隨“造車”成為業界高度關註的話題,不僅有虛擬偶像、MMD(MikuMikuDance,虛擬角色跳舞)等文化現象大流行,更在AI加持下為數字人類初步賦予自主智能。在可見的未來裡,我們是否能輕松擁有自己在賽博空間中的“復制體”——虛擬人呢?《銀翼殺手2049》中的虛擬人一、虛擬人與數字人、虛擬偶像虛擬人與數字人兩個概念多數時候可以通用,相比之下,虛擬人更側重其在外觀、智能等方面與人的相似性,在難辨真假的同時可以進行交互。籠統地說,通過3D圖像軟件或其它模擬仿真工具制作,以數據形式存在的人與類人角色,都可以算作數字人(digital humans),遊戲和影視中也可叫做數字角色(digitalcharacter)。虛擬偶像,則是從應用場景出發的一種稱謂,無論2D、3D或怎樣的表現形式,隻要以滿足用戶對成長、美好的向往為出發點進行公開活動,都可劃分到偶像范疇。虛擬人可以被打造為虛擬偶像,同樣也可以成為虛擬演員、虛擬作傢等等。按照美術風格,可以大體劃分為高保真風格、寫實風格與卡通渲染。其中寫實-卡通是一種譜系而非存在涇渭分明的界線,而卡通風格也可進一步細分,比如美式卡通、韓系風格、二次元風格等。除風格及場景外,虛擬角色還可以按照制作主體、方式、驅動方式進行分類。藝術傢從創意想象出發,經過2D原畫-3D建模-綁定-動畫等流程制作出的,屬於PGC類型;一般用戶基於平臺工具,將自己的照片、視頻上傳後自動化生成,或組合已有的面部特征、修改參數進行“捏人”的,屬於UGC類型。讓角色動起來的方式也很多樣。可以手動調整動畫的關鍵幀,再平滑模擬出過渡幀,實現角色動畫;或像MMD那樣,導入預先制作好的動畫方案,讓角色模型舞動起來;還可以通過面部、身體動作捕捉,將真實運動映射到虛擬角色的身體,部分虛擬主播、虛擬偶像就采用這種方案。二、學界:發展數十年的前沿交叉領域早在20世紀70年代,對虛擬人的研究就已經在學術界起步。虛擬人(virtual human或computersynthesized characters)指人在計算機生成空間(虛擬環境)中的幾何特性與行為特性的表示。人是一個復雜體,不同的學科領域,對抽象和模擬人類的側重點也不同。比如體育、軍事等,關註虛擬人運動和行為的模擬仿真;醫療領域著重對數字化的人體結構進行重建和分析;圖形學、影視的課題則是如何讓虛擬人的外形達到真實人類的高度還原。因此,虛擬人已逐步發展為涉及計算機圖形學、運動學和動力學、多功能感知、人工智能和虛擬現實等多個學科的前沿交叉領域。隨著人工智能研究深入,如何讓虛擬人具有一定程度的自主感知能力、邏輯推理、語言甚至情感,成為瞭學界和產業界共同關心的前沿陣地。醫學意義的虛擬人,顯然不是我們要討論的……三、業界:高保真、智能化、工具化是焦點泛互聯網產業中所談及的虛擬人技術與案例,大體有風格化-高保真、離線渲染-實時驅動兩種發展維度:風格化以打造時尚、美麗、萌系等有視覺吸引力的形象為要點,高保真則一般擁有現實中的原型;離線渲染方式呈現的是預制作的圖片、視頻,而實時驅動則能夠跟隨真人的動作、語音文字等信息進行現場“表演”。英雄聯盟中的卡通風格角色Seraphine,以推特賬號分享自己的“照片”本文集中關註的方向是高保真、可實時驅動的虛擬人,有以下三個重要的技術方向:高保真、智能化、工具化。我們距離超級數字場景中千人千面的數字化存在,又有力地前進瞭一步。在視覺表現層面,做出從外形、表情到動作都1:1還原真實人的高保真虛擬人(Digital Doubles),如數字奧巴馬;運用人工智能,使虛擬人初具智能和情感表達,如微軟小冰;開發更輕量、便捷的工具,讓藝術傢和普通用戶都能快速生產高品質美術資產,或自己的數字孿生體,如Epic的 metahuman creator。為什麼要首先瞄準這些方向?首先,做1:1還原的虛擬人存在很多技術難點,值得挑戰。人類視覺對同類的形象、特別是對面部高度敏感,在似像非像的階段,很容易跌入“恐怖谷”。所謂畫鬼容易畫人難。因此,制作風格化的虛擬角色成為另一種選擇,卡通形象做出誇張化的動作表情並不會嚇到觀眾,還為藝術創作留下很大空間。影視等非實時渲染領域,也探索出數字化復制、合成真實人類外形的技術,正向實時渲染的遊戲、遠程會議等領域進行遷移。即使突破瞭靜態下擬真的瓶頸,如何讓虛擬人自然地動起來,更是一大難題。人類能從對方的表情、肢體中讀取豐富的非語言信息,反過來說,虛擬人表情和動作中些微的不自然都能被察覺到。簡單一個皺眉,牽動骨骼肌肉皮膚一系列變化。如果用手工的方式調整,工作量極其巨大。AI在此有不可替代的價值——通過合理架構,利用人類動作和表情數據集,AI 能以人類為藍本來學習,甚至學到被人類忽略的微妙細節,比如辨別目標是否在說謊。未來在類似頭號玩傢的數字場景中,每個用戶都需要自己的虛擬形象,開放世界中大量的非用戶角色(NPC)也需要做到千人千面。影視級制作的流程和效率顯然不適用。因此,需要為藝術傢、一般創作者和普通人,提供符合各自能力和需求的制作工具與素材。要做到這些方向,需要基礎學科的支撐,需要一系列精密硬件、技術、算法和軟件的相互配合,更需要跨界的力量。四、從很像到很真:影視級照片建模技術制作實時渲染、高保真、可交互的數字人類,需要影視、遊戲兩個領域技術的取長補短。影視很真實但不實時,遊戲正好相反。影視領域的成熟技術light stage光場攝影,率先解決瞭“真實度”這一難題。通過傳統流程制作出的遊戲角色,仍與真人在細節上有一定差距。角色制作遵循一條由虛向實的路徑,一般流程為2D原畫設計-3D建模-貼圖-骨骼綁定-動畫制作。因顯卡運算能力和引擎渲染能力不斷攀升,寫實風格的角色效果正不斷向影視級靠近:角色可使用的面數不斷增加,材質提升,細節完善,這從《古墓麗影》系列主角勞拉的形象變化可見一斑。歷代勞拉,越發真實影視領域則選擇由實向虛,高保真數字模型制作與後期處理能力結合,誕生出讓人瞠目結舌的特效成果。電影《本傑明巴頓奇事》講述瞭主角返老還童的一生,將佈拉·德皮特的面部模型與不同體型的演員合成,演繹角色從老年至嬰兒的形象變化。這也是在電影中實現的第一個照片級真實數字主角(the first photoreal digital main character in a film——Paul Debevec)。皮特本人與使用面部合成技術後的形象關鍵技術支撐,來自南加州大學教授Paul Debevec自2000年啟動的light stage光場攝影項目研究。這屬於 photogrammetry 范疇,使用單個場景拍攝的多張不同角度照片來重建3D空間中的 CG 模型。回憶下《黑客帝國》中的子彈時間特效,現場有多臺攝像機,用不同角度的影像重建出可360°旋轉的場景。light stage正是通過構造相機陣列,以多角度、高精度照片,既還原拍攝人物的三維結構,也獲取面部的反射信息,從而能在不同環境光下重構人臉模型光效。light stage在不斷迭代中解決瞭技術和工程難點,包括高精度皮膚紋理合成、光照與環境隨時統一、更準確快速的采集過程。light stage5,《本傑明巴頓奇事》《蜘蛛俠3》《阿凡達》等均使用過以下是Paul Debevec團隊在SIGGRAPH 2008發佈的Digital Emily,你能分辨出哪一個是真人,哪一個是虛擬人嗎?左邊是虛擬人來自影視的照相建模、高精度3D掃描、面部和動作捕捉相關技術,已經應用到遊戲的實時渲染領域,為表現力帶來飛躍。如何進一步滿足虛擬人實時交互的需求呢,比如,讓演員的表情與虛擬人達成“神同步”?多個技術團隊展開瞭探索。五、從形似到有神:AI助力多樣化人物驅動為瞭讓虛擬人和我們自然地交流互動,騰訊NExT Studios與AI Lab在虛擬人Siren(演員實時表情動作驅動)-Siren AI(語音文字驅動)-Matt AI(更真實情感表達)項目歷程中,逐步探索“秀外慧中”的全方位能力。2017年啟動的虛擬人 Siren項目,目標正是Crossingthe boundary:跨越影視和實時渲染邊界,制作可實時交互的數字人物;在高保真角色基礎上,進一步增加高精度的實時動作捕捉與渲染。2018 年 5 月, Siren 驚艷亮相,激起瞭人們對虛擬人技術的無限暢想。Siren的特性是實時表情動作驅動,涉及多方向的技術突破,在多國企業協同合作下完成:美國的Epic發起和協調項目,以Unreal引擎整合模型、貼圖、動作等數據資源;塞爾維亞的3Lateral制作高精度人物模型,同時建立綁定,為演員和虛擬人的同步搭建轉換橋梁;英國的Cubic Motion,負責實時的表情捕捉;NExT作為項目所有者,提供基於Unreal引擎的高質量的人物渲染,也積極參與研發的全過程。Siren 亮相2018年 GDC,演員是薑冰潔小姐姐技術的進步為Siren賦予瞭逼真的3D形象,我們能否進而為她賦予精致的“靈魂”呢?2018 年下半年的 Siren AI 項目,旨在讓虛擬人不止步於“提線木偶”,將智能音箱、語音助手與人自主交互的能力賦予Siren,讓她獨立做到能聽、會說。這涉及多個AI研究和工程領域,包括語音識別(ASR)、自然語言處理(NLP),語音合成(TTS),語音驅動面部動畫(ADFA)。難點集中在最後一步,核心是利用AI訓練出語音/文字和面部模型肌肉控制間的對應關系,然後進入渲染引擎、驅動虛擬人。原理展示2019年,NExT自主制作瞭男性虛擬人Matt,自主完成一整套高保真虛擬人的研發流程,並結合騰訊AI Lab能力,探索語音自驅動且能表達情緒的虛擬人技術,將語音、情感、生動的面部表情緊密關聯起來。相關研究在 2019 年的 SIGGRAPH 頂級會議上展示。為此,團隊建立瞭一套精確的面部動捕流程,以不同情感下的動作捕捉,來訓練語音驅動模型,最終構造瞭一個長約20個小時、13339條語句的,包含語音、面部運動和身體運動的多模態訓練數據集。在Siren AI 基礎上,增加情感維度數據,讓Matt擁有微笑、蹙眉等微表情,多瞭更自然的“人情味”。Matt的官方靚照六、從PGC到UGC:工具化支持高效創作從0開始制作虛擬人,需要較長周期,耗費較高成本。例如Siren項目從啟動采集到能夠自然地活動,就用瞭接近半年時間。在積累瞭一定數量人臉數據和素材的基礎上,更高效的工具應運而生,既滿足遊戲制作流程中藝術傢創造多樣化角色的需求,也讓普通人能夠便捷生成屬於自己的虛擬形象。較為有代表性的是騰訊NExT Studios的xFaceBuilder™與Epic的Metahuman Creator。xFaceBuilder™是一套面向專業開發者的全流程管線,能夠敏捷生產適用多種終端設備的數字人臉。平臺基於自建的高保真人臉庫xFaceDepot,提供影視級人臉建模、綁定、動畫生產管線。針對手機、PC、主機等不同的平臺和美術需求,提供瞭靈活的配置方式,已支持騰訊遊戲的多款研發中遊戲內容。平臺還結合AI Lab技術,支持單張/多張照片AI捏臉。綁定好的模型可通過三種方式動起來:大型項目、復雜動作使用Dynamixyz光學動捕。如果需求不復雜,甚至可以直接打開最新款iPhone後置攝像頭,基於Apple ARKit的輕量級面部動捕,以及更輕量級的語音驅動面部動畫生成。NExT Studios和新華社聯合打造的數字記者小諍近期,AI Lab的相關研究又取得瞭進一步的進展:僅需一段手機自拍視頻,就能在 30 秒內合成一個高擬真度的 3D 虛擬人。視頻輸入到 AI 模型後,隻需 30 秒處理時間就能生成一個高擬真度的虛擬人,不僅臉型和五官形狀非常貼合,而且具有毛孔、唇紋、毛發級別的細節。再借助虛幻 4 引擎等基於物理的渲染引擎(PBR),可以得到真實感很強的虛擬人。相關研究發表在瞭計算機圖形學頂級期刊ACM Transactions on Graphics。自拍快速生成虛擬人的流程及效果2021年初Epic公佈的Metahuman Creator工具,讓零基礎用戶也能“捏人成功”。產品基於預先制作的高品質人臉素材庫,允許用戶以自動混合、手動調節的方式快速生成虛擬人。Siren項目後,Epic收購瞭3Lateral公司,得到多年積累的大量真人掃描高精度數字資產。主要特性首先是高效的模版混合技術,可以融合多張基礎臉後快速得到一個全新面孔,且栩栩如生,擁有細膩的微表情動畫;二是雲端渲染,使用者無須擁有高端顯卡,本地操作通過網絡傳輸到雲端,渲染後傳回視頻流,使制作過程做到輕量、優質、便捷。但這種方式也有局限性,利用已有人臉數據意味著無法隨心所欲地創造角色。因此,工具定位在零基礎操作、高品質、快生產,小團隊可以直接生成自己的作品主角,大幅提升美術效果、節約創作成本;大公司則可以批量制作3A級遊戲中的NPC。Metahuman Creator制作界面七、虛擬人可以做什麼?虛擬主播的風靡,證明風格化的虛擬角色在商業層面充滿可能性。那高保真風格的虛擬人又適用於怎樣的場景呢?真實系虛擬偶像盡管當下二次元風格的虛擬主播更為主流,但真實系偶像的潛力同樣不可小覷。當虛擬人的制作精度、動作自然度跨越恐怖谷,自然也有望跨入優質偶像的行列,並有更廣的應用場景。韓國藝術傢金賢日(Hyeong-il Kim)創立的SUA項目正是以打造真實人類形象的虛擬偶像為目標。SUA由CG技術制作,在Unity引擎中實時渲染。雖然外形精度不及掃描真人模型後制作的效果,但也足夠擬真。如果使用最新款支持面部捕捉的iPhone,小姐姐會模仿你做出扭頭、撅嘴、轉動眼睛的動作,十分流暢。SUA擁有自己的Twitter,不定期更新自己的日常活動。金賢日正在“培養”SUA的各種才藝技能,讓她“出道”後可以應對各種各樣的場景任務,如模特、演員、歌手等。虛擬人SUA用iPhone 12 mini實時跟蹤的效果在數字影片中擔任演員使用遊戲引擎制作寫實風格的影像短片已並非難事,但“虛擬演員”,也就是高質量的人形美術資產,在數量和質量上都不易達到影視制作的需求。在虛擬人制作逐步成熟後,這一問題得到瞭初步解決。在2021年Epic官方及合作夥伴發起的短片競賽中,科幻題材實時渲染短片《K.I.T》就使用瞭多個虛擬人作為主要演員,以精良制作斬獲多個傳統電影獎項。短片中“出演”的角色包括Renderpeople、3DPeople中的數字人物角色,及從Eisko官網下載的免費高保真虛擬人Demo——露易絲(Louise)。作者佈蘭登·希爾(BrandonHill)是一位並就讀於查普曼大學道奇電影與媒體藝術學院的學生。上圖:短片《K.I.T》中的露易絲下圖:露易絲照片(左)及渲染後的虛擬形象(右)重現已故的人還原已故的名人、親人形象,雖存在一定倫理挑戰,但也是很多人的真實需求。韓國MBC電視臺紀錄片頻道在2020年2月曾利用VR與虛擬人技術,讓一位母親與三年前因白血病去世的女兒實現“重逢”。母親戴上VR眼鏡後,可以通過觸覺手套感知孩子的頭發、握住女兒的手,在虛擬空間中與女兒共度生日。她在“重新見到”女兒Nayeon時泣不成聲,接受采訪時表示,“可能這就是真實的天堂”。技術人員通過Nayeon生前的影像和對同齡孩子進行動作捕捉,合成瞭Nayeon的聲音、動作和面部表情。臺灣電視劇《想見你》中也設計瞭類似劇情。三寸天堂電影《速度與激情7》拍攝中,主要演員之一保羅沃克意外去世。虛擬人特效技術復原瞭他本人形象,以特效完成瞭剩餘鏡頭拍攝,並特意在片尾設計一段他駛上分岔路、與主角團及觀眾揮手道別的場景,讓影迷們積鬱的悲傷得以釋放。再見,保羅八、發展趨勢:更自然、更跨界、更安全使虛擬人表現更自然,驅動方式更多樣。特別是面部表情、眼神、肌肉運動的細膩流暢,既需要更多的真實數據、更優質的算法,也需要生物學、圖形學、影視業的跨界支持。軀體動作的加強也是未來方向,個性化的動作組合能彰顯虛擬人迥異的性格,增加親和力和可信度,這對虛擬主持、主播、客服等需要和直面用戶的領域十分重要。此外,從用遙感和按鍵來“操作”角色,到用實時動補、語音和文字帶動角色,未來還需要更直觀、適合每個人的驅動方式。推動產學研多方合作,推進行業聯盟建設。如數字人類聯盟Digital Human League(DHL for short)就是由多個高校、產業、行業專傢共同成立,並建立瞭Wikihuman網絡項目,提供來自 DHL 成員的博客文章、圖文視頻資料及聯盟成員可以公開的虛擬人項目文件。例如南加州大學ICT視覺與圖形實驗室就在項目中分享瞭2015年成果——虛擬人Emily的原始數據、shader步驟、參考圖像和模型,使研究者能夠跟進與實踐。加強對人臉數據、AI技術的合理使用,倡導“科技向善”。盡管技術上已初步支持通過照片、視頻快速生成虛擬人,同時3D虛擬人因為與周圍環境融合效果差,較難偽造人臉識別結果。但我們也要在未來發展中,重視加強合理使用和風險防范。例如,人臉合成應用初期發佈時出現瞭一些濫用案例,包括合成惡意影像、偽造虛假錄像等。業界正在積極開發活體識別等技術,以便能盡早發現和清除網站中的偽造內容。騰訊研究院也在持續跟蹤“深度合成”方面的政策進展與技術應對方案。將相關技術部署到虛擬人應用中後,被合成虛擬人冒用身份的風險會顯著降低,視頻網站和社交網絡等內容平臺也能快速高效地清理惡意合成的影像。感謝騰訊NExT Studios顧煜、葛誠、姚安,騰訊AI Lab暴林超,廈門大學郭詩輝,騰訊研究院曹建峰等多位老師在本文寫作過程中給予的支持與幫助!參考文獻:騰訊NExT Studios SIREN. https://www.nextstudios.com/cn/tech/siren.html騰訊AI lab虛擬人能力python代碼開源地址 https://github.com/tencent-ailab/hifi3dface知乎專欄 Wang Hawk 《LightStage: 無限真實的人臉三維掃描》https://zhuanlan.zhihu.com/p/163719726知乎問題《如何拍攝一部短片或者微電影?》中用戶“毀男孩的小圖紙”的回答:https://www.zhihu.com/question/25310626/answer/1932877078Eisko公司的虛擬人露易絲(Louise)https://www.eisko.com/services/digital-humansWikihuman 項目網站http://www.wikihuman.org/南加州大學ICT實驗室官網https://vgl.ict.usc.edu/Data/DigitalEmily2/環球網,韓國母親通過VR技術與去世女兒重逢https://smart.huanqiu.com/article/3wzQ981IkgQ,2020-2-11基於Unity渲染的SUAhttps://zhuanlan.zhihu.com/p/345423886作者:胡璇,騰訊研究院數字內容中心高級研究員;公眾號:騰訊研究院(ID:cyberlawrc)本文由 @騰訊研究院 原創發佈於人人都是產品經理。未經許可,禁止轉載題圖來自Unsplash,基於CC0協議
本文出自快速备案,转载时请注明出处及相应链接。