訂閱
糾錯(cuò)
加入自媒體

火山引擎智能3D視頻啟動(dòng)商業(yè)化,計(jì)劃落地直播應(yīng)用

圖片

火山引擎多媒體實(shí)驗(yàn)室公布全新視頻形態(tài) —— 智能3D視頻商業(yè)化方案,啟動(dòng)多場(chǎng)景商業(yè)化,包括將在抖音直播啟動(dòng)落地探索。

文|牛慧

編|趙艷秋

過去十幾年,視頻技術(shù)的核心命題只有一個(gè),如何把畫面拍得更清楚、傳得更快。但在2025年,一個(gè)新的問題開始浮現(xiàn),如果不再由鏡頭替我們選擇視角,會(huì)發(fā)生什么?當(dāng)觀眾“走進(jìn)”畫面、繞著人物觀看,用自己的位置參與敘事,視頻是否會(huì)從內(nèi)容,變成一個(gè)空間?

在上周舉辦的火山引擎FORCE原動(dòng)力大會(huì)上,視頻云展區(qū)給出了一個(gè)答案;鹕揭娑嗝襟w實(shí)驗(yàn)室首次對(duì)外公布了一種全新的視頻技術(shù)形態(tài)——智能3D視頻的商業(yè)化方案這支團(tuán)隊(duì)也正是多項(xiàng)抖音視頻技術(shù)的源頭。據(jù)悉,該技術(shù)已啟動(dòng)多場(chǎng)景商業(yè)化推進(jìn),其中包括計(jì)劃于2026年在直播場(chǎng)景中的實(shí)際落地探索。

01

從看視頻到“走進(jìn)畫面”

展臺(tái)上,一部手機(jī)上一張普通照片已被轉(zhuǎn)換成一張3D照片。我輕輕晃動(dòng)手機(jī),能看到人物周邊更多的街區(qū)細(xì)節(jié)。這讓我想起在得物或鏈家App里看商品和房源的體驗(yàn),鞋子可以被旋轉(zhuǎn)“端詳”,房子也能被立體探索。不同的是,這里的視角以我為中心在移動(dòng),而App上那些則以物體為軸心。

展區(qū)內(nèi),一臺(tái)普通筆記本電腦上跑著五個(gè)Demo,畫面里是五位樂手,分別演奏古箏、小提琴和鋼琴,看來(lái)這群多媒體實(shí)驗(yàn)室的小伙伴都很熱愛音樂!在我日常觀看的2D視頻中,比如馬克西姆演奏的鋼琴神曲《出埃及記》,只能被動(dòng)地跟著鏡頭走,看他俊朗的面部表情,手部或有力、或疾速的敲擊,背部的起伏,以及周圍身著長(zhǎng)裙的的小提琴手與舞臺(tái)燈光的配合。

但在這里,我可以自己“操控視角”。我可以切換到俯視視角,看演奏者手部的流暢動(dòng)作;也可以從背后觀察他在某一樂章中身體的起伏;從側(cè)面或正面,看他與音樂完全沉浸在一起的表情。如果是一個(gè)樂團(tuán),我還可以隨時(shí)移到周邊樂手身上,看他們的演奏細(xì)節(jié)。

接著,我戴上一臺(tái)字節(jié)PICO VR。在我面前,一位小提琴手站在客廳中央,演奏著一段悠揚(yáng)的樂曲。桌上擺著紅酒,身后的落地窗外是綠色草坪和羅馬柱風(fēng)格的大理石建筑。我“走”近他,看見拉弓時(shí)手指和琴弦之間細(xì)微的顫動(dòng);又“走”到他左側(cè)不遠(yuǎn)處,音樂從對(duì)應(yīng)的空間方位傳來(lái)。這種體驗(yàn)突然讓我產(chǎn)生了一種沉浸感,就像是周末正在參加一場(chǎng)私人Party,環(huán)境優(yōu)美,氛圍輕松。

實(shí)驗(yàn)室的小伙伴告訴我,這些Demo意味著,這套技術(shù)已經(jīng)可以用于制作六自由度(6DoF)視頻內(nèi)容,比如短劇、互動(dòng)視頻。

那么,什么是6DoF視頻?

如果你戴過VR設(shè)備,可能有過這樣的體驗(yàn),你只能原地轉(zhuǎn)頭,看看四周。6DoF則名為“六自由度空間”。有部電影叫《六度空間》,它講述了人與人之間社會(huì)關(guān)系的擴(kuò)展,而6DoF說的是空間的擴(kuò)展,比如前面的小提琴演奏者,他不僅可以在前后、左右、上下三個(gè)方向上移動(dòng),還可以有搖頭、點(diǎn)頭、歪頭三類旋轉(zhuǎn)自由度。有了6DoF,我們就可以在空間里“走動(dòng)”、“靠近”、“繞著觀察”。

這會(huì)帶來(lái)非常新奇的內(nèi)容形態(tài)。比如在懸疑短劇中,觀眾可以“置身其中”,如果你懷疑某人是兇手,可以從不同角度反復(fù)觀察他的動(dòng)作與表情;看到彈幕里有人提到某個(gè)細(xì)節(jié),也可以立刻回應(yīng)“你是從哪個(gè)角度看到的”。

還有一類是情感層面的需求。我們可以把家里的寵物制作成6DoF視頻保存下來(lái),甚至結(jié)合大語(yǔ)言模型做互動(dòng)。當(dāng)寵物有一天不得不離開我們,我們可以隨時(shí)拿出來(lái)觀看。也許在未來(lái),隨著技術(shù)進(jìn)一步進(jìn)步,我們還能“撫摸”它。

在展區(qū)的另一側(cè),是全息通信與實(shí)時(shí)空間視頻的演示。一位多媒體實(shí)驗(yàn)室的小伙伴坐在一塊白色屏幕前,面前擺放著5臺(tái)相機(jī)。這并不是普通相機(jī),它們通過有線將傳感器連接,形成一組同步相機(jī)系統(tǒng)。當(dāng)然,如果需要360度拍攝,實(shí)驗(yàn)室的輕量化技術(shù)僅需12臺(tái)相機(jī)就能完成全域覆蓋。

小伙伴沖著鏡頭打招呼,示意我們看不遠(yuǎn)處一個(gè)全息屏幕,他的動(dòng)作已經(jīng)實(shí)時(shí)展示在全息屏幕上。這背后是一系列“動(dòng)作”:專業(yè)相機(jī)實(shí)時(shí)采集畫面,傳輸給一臺(tái)普通筆記本電腦,在這里上傳云端,在云端實(shí)時(shí)重建,快速構(gòu)建出這個(gè)立體場(chǎng)景,并通過CDN下發(fā)到觀眾的終端,實(shí)時(shí)渲染,實(shí)現(xiàn)觀眾從任意角度觀看。

圖片

現(xiàn)場(chǎng)的全息屏幕像一臺(tái)蘋果顯示器大小。當(dāng)這個(gè)全息屏幕做到1:1尺寸時(shí),這套技術(shù)將接近真實(shí)的“面對(duì)面交流”,它有望在遠(yuǎn)程會(huì)診、異地探視等場(chǎng)景中,帶來(lái)前所未有的臨場(chǎng)感。

02

“空間視頻”在探索各類應(yīng)用

火山引擎多媒體實(shí)驗(yàn)室的這些技術(shù)成果,本質(zhì)上都在解決前沿視頻技術(shù)長(zhǎng)期存在的三大難題,技術(shù)成熟度、制作與算力成本,以及工程化落地能力。它們的目標(biāo)不是停留在論文或Demo,而是讓空間視頻真正進(jìn)入可規(guī)模應(yīng)用的現(xiàn)實(shí)場(chǎng)景。

實(shí)際上,2025 年正成為空間視頻與全息通信加速落地的時(shí)間點(diǎn)。海外廠商中,谷歌動(dòng)作尤為明顯,其早些年已成立獨(dú)立產(chǎn)品線Google Beam,押注新一代視頻方向,今年將其接入谷歌會(huì)議系統(tǒng),聯(lián)合惠普推出專用設(shè)備,率先切入跨國(guó)會(huì)議場(chǎng)景。蘋果則在端側(cè)實(shí)現(xiàn)基于單目視覺的6DoF能力,但目前該能力主要適用于靜態(tài)場(chǎng)景。

火山引擎多媒體實(shí)驗(yàn)室則跑通了空間視頻直播場(chǎng)景,并實(shí)現(xiàn)了僅依賴一個(gè)或少數(shù)普通攝像頭生成自由視角6DoF視頻的能力,具備大眾化應(yīng)用條件?梢哉f,全球視頻技術(shù)的演進(jìn)正發(fā)生在同一節(jié)奏點(diǎn)上。

近年來(lái),空間視頻已零星出現(xiàn)在體育賽事、游戲和文化內(nèi)容中,如世界杯轉(zhuǎn)播、唐宮夜宴3D空間視頻等。其商業(yè)潛力早已被看到,但此前受限于技術(shù)不成熟與高昂成本,未能規(guī);涞。隨著算法、工程化和硬件成本的快速下降,市場(chǎng)機(jī)構(gòu)預(yù)測(cè),到2030年,空間視頻相關(guān)市場(chǎng)規(guī)模有望達(dá)到千億美元量級(jí),覆蓋直播、點(diǎn)播和全息通信等多個(gè)方向。

直播場(chǎng)景中——直播競(jìng)爭(zhēng)的關(guān)鍵在用戶進(jìn)入直播間后的“黃金幾秒”,空間視頻讓觀眾可以晃動(dòng)手機(jī)、“走進(jìn)”直播間,自然延長(zhǎng)了停留時(shí)長(zhǎng)與互動(dòng)深度。

在抖音秀場(chǎng)直播中,粉絲也不再受限于扁平的畫面,能全方位捕捉主播的靈動(dòng)舞姿與細(xì)膩神情,獲得如同面對(duì)面互動(dòng)的沉浸式陪伴。

在點(diǎn)播場(chǎng)景中——這里的“點(diǎn)播”,不是觀眾點(diǎn)播影片,而是內(nèi)容創(chuàng)作者創(chuàng)作自由視角內(nèi)容。當(dāng)內(nèi)容創(chuàng)作者制作了6DoF的博物館內(nèi)容,觀眾就可以按自己的節(jié)奏探索空間,有人沿路線參觀,有人貼近展柜看細(xì)節(jié),有人會(huì)在評(píng)論區(qū)互動(dòng),“這件青銅器內(nèi)的銘文從哪個(gè)角度能看到?”這些會(huì)激發(fā)分享和二次傳播。

圖片

在2D內(nèi)容高度同質(zhì)化的當(dāng)下,隨著AI眼鏡和VR設(shè)備逐步普及,市場(chǎng)迫切需要更具新鮮感和互動(dòng)性的3D內(nèi)容。更重要的是,當(dāng)創(chuàng)作者以更低成本拍真人內(nèi)容,替代過去略顯生硬的純數(shù)字人,使舞蹈、懸疑短劇、沉浸式密室逃脫等內(nèi)容的真實(shí)感大幅提升,你會(huì)體驗(yàn)到舞蹈的美感、旅館中“女鬼”的驚嚇感,尤其適合演唱會(huì)等OGC以及娛樂、媒體類PGC內(nèi)容。

在全息通信場(chǎng)景中——空間視頻讓遠(yuǎn)程交流重新回到“面對(duì)面”。在一些演示中,1:1 的全息屏幕讓遠(yuǎn)端的古箏老師仿佛走出畫框,與學(xué)生直接互動(dòng)。

這種體驗(yàn)為遠(yuǎn)程會(huì)診、特殊教育、企業(yè)會(huì)議和高價(jià)值客戶服務(wù)提供了新的可能。比如在企業(yè)協(xié)作中,參會(huì)者展示的是懸浮的全息沙盤,遠(yuǎn)端專家能共同查看三維模型并進(jìn)行標(biāo)注,這在地質(zhì)勘探領(lǐng)域已經(jīng)發(fā)生。在心理或醫(yī)療場(chǎng)景下,全息通信既保留真實(shí)的微表情和肢體反饋,又降低患者的心理壓力;在金融、保險(xiǎn)和奢侈品服務(wù)中,它更接近一次線下面談,有助于建立信任。

全息通信從高端場(chǎng)景起步。目前火山引擎方案實(shí)現(xiàn)了消費(fèi)級(jí)帶寬(<10mbps),高清晰度高保真,采集成本/整體設(shè)備成本實(shí)現(xiàn)大幅度下降。隨著設(shè)備和帶寬門檻持續(xù)降低,這類應(yīng)用也正從少數(shù)高端場(chǎng)景,走向更廣泛的商業(yè)領(lǐng)域。

03

空間視頻如何實(shí)時(shí)“跑起來(lái)”

火山引擎多媒體實(shí)驗(yàn)室的這套技術(shù),最早是為點(diǎn)播場(chǎng)景服務(wù),比如春晚或體育賽事大型舞臺(tái)的“子彈時(shí)間”,畫面定格在某一瞬間,觀眾可以360度觀看。團(tuán)隊(duì)進(jìn)一步思考,既然能把一個(gè)瞬間做成3D,能不能把每一個(gè)瞬間都做成3D,讓觀眾來(lái)選擇視角?于是逐步演化出了現(xiàn)在的空間視頻技術(shù)。

而這些的背后是一整套技術(shù)鏈路與工程化能力的突破。火山引擎多媒體實(shí)驗(yàn)室團(tuán)隊(duì)投入近五年,在采集層、傳輸層和呈現(xiàn)層三個(gè)關(guān)鍵節(jié)點(diǎn)實(shí)現(xiàn)系統(tǒng)性突破。

在采集層——

4DGS(四維高斯?jié)姙R)是動(dòng)態(tài)場(chǎng)景重建與渲染的核心算法。相較3D,它多了時(shí)間維度,用大量帶有位置、大小、顏色和透明度等屬性的“高斯點(diǎn)”,通過疊加方式構(gòu)建起會(huì)隨時(shí)間變化的三維場(chǎng)景。這種方式有點(diǎn)像張大千山水畫中的“潑彩”,將顏料“潑”“染”到畫布上,自然擴(kuò)散疊加,形成山水畫面,而不是勾勒成形。

高斯?jié)姙R是當(dāng)前發(fā)展極快的方向,但傳統(tǒng)方案通常依賴數(shù)十分鐘的離線優(yōu)化,難以應(yīng)對(duì)實(shí)時(shí)場(chǎng)景。火山引擎視頻云結(jié)合大模型技術(shù),將人體動(dòng)態(tài)重建加速到毫秒級(jí),在A10顯卡上實(shí)現(xiàn)了 30fps以上的實(shí)時(shí)4DGS 重建,成為業(yè)內(nèi)首個(gè)支持實(shí)時(shí)4DGS直播的方案

動(dòng)態(tài)場(chǎng)景的另一大難點(diǎn)是長(zhǎng)時(shí)序穩(wěn)定性。傳統(tǒng)方法在長(zhǎng)時(shí)間播放時(shí)容易出現(xiàn)人物輪廓抖動(dòng)、畫面閃爍等問題。實(shí)驗(yàn)室的Dynamic GS技術(shù),提出“進(jìn)化式(Evolving)”3D高斯重建框架,使高斯點(diǎn)隨場(chǎng)景變化自適應(yīng)地生長(zhǎng)、分裂與消亡,提升穩(wěn)定性。同時(shí),通過幾何與外觀解耦,人物不再被拍攝時(shí)的燈光“鎖死”,能在虛擬環(huán)境中重新打光,生成更加逼真的光影效果。

在攻克專業(yè)設(shè)備的高質(zhì)量重建方案后,火山引擎視頻云進(jìn)一步挑戰(zhàn)普適性場(chǎng)景,用單目攝像頭生成自由視角。

團(tuán)隊(duì)首創(chuàng)了變形場(chǎng)高斯,解決“只用一臺(tái)普通攝像頭拍動(dòng)態(tài)場(chǎng)景,如何重建清晰三維世界”的行業(yè)難題。傳統(tǒng)NeRF方法依賴從2D畫面逆向推斷三維結(jié)構(gòu),構(gòu)建的動(dòng)態(tài)場(chǎng)景容易模糊失真;而變形場(chǎng)高斯采用“前向映射”,直接在三維空間中建模物體如何運(yùn)動(dòng),再投影到畫面,在權(quán)威數(shù)據(jù)集上實(shí)現(xiàn)了10+的PSNR提升。

團(tuán)隊(duì)還引入生成式大模型技術(shù),并與抖音團(tuán)隊(duì)合作,行業(yè)首發(fā)“空間視頻直播”,只用一個(gè)攝像頭拍攝內(nèi)容,也能生成可前后左右走動(dòng)、自由觀看的6DoF視頻空間。這樣,空間視頻從昂貴、專業(yè)的拍攝工程,變成普通創(chuàng)作者可用的表達(dá)工具,也讓“全息通話”首次具備大眾化落地條件。

在傳輸層——

在重建之后,還要解決傳輸問題。高斯數(shù)據(jù)天然不適合網(wǎng)絡(luò)傳輸,實(shí)驗(yàn)室將其轉(zhuǎn)化為標(biāo)準(zhǔn)視頻流,直接復(fù)用現(xiàn)有視頻傳輸與解碼體系。通過壓縮技術(shù),空間視頻的傳輸帶寬被壓縮到10Mbps以下,而部分同類方案仍需要60Mbps以上,且已實(shí)現(xiàn)PC、VR、手機(jī)等多終端播放。

這其中的核心在于基于渲染重要性的低損耗壓縮策略。高斯點(diǎn)數(shù)量龐大、屬性復(fù)雜,研發(fā)人員通過深度學(xué)習(xí)感知哪些區(qū)域?qū)σ曈X最關(guān)鍵,對(duì)核心區(qū)域重點(diǎn)采樣,在保證畫質(zhì)的同時(shí)大幅減少點(diǎn)數(shù)。這樣,在最高500倍壓縮率下,畫質(zhì)損失極低(PSNR < 3dB)。

具體實(shí)現(xiàn)上,一類方法將高斯點(diǎn)按規(guī)則投影到2D平面,生成可壓縮的視頻序列;另一類方法對(duì)三維空間進(jìn)行切片,將不同空間塊和屬性映射為規(guī)則視頻流。兩條路線的共同點(diǎn)是,最大化復(fù)用成熟的視頻軟硬件能力。

在呈現(xiàn)層——

在呈現(xiàn)層,空間音頻與空間視頻的融合進(jìn)一步提升沉浸體驗(yàn)。音頻是構(gòu)成“聲畫一體”6DoF體驗(yàn)的關(guān)鍵要素,在技術(shù)上,空間音頻基于頭相關(guān)傳輸函數(shù)(HRTF)與房間聲學(xué)建模,讓聲音像現(xiàn)實(shí)世界一樣具備方向、距離與空間感,畫面與聲音的位置始終對(duì)齊。用戶轉(zhuǎn)身看向說話的人,聲音自然從對(duì)應(yīng)方向傳來(lái);向前靠近,聲音變得清晰;被物體遮擋時(shí),聲音也隨之減弱。延遲極低,形成高度真實(shí)的臨場(chǎng)感。

這些技術(shù)突破已獲得國(guó)際學(xué)術(shù)界廣泛認(rèn)可。如4D GS研究成果入選SIGGRAPH 2025 Emerging Technologies;Dynamic GS 相關(guān)工作連續(xù)被CVPR、SIGGRAPH等頂級(jí)會(huì)議收錄。4DGS壓縮算法相關(guān)技術(shù)已形成9篇國(guó)際標(biāo)準(zhǔn)化組織MPEG技術(shù)提案,其中4篇納入MPEG探索模型或核心實(shí)驗(yàn)。

壓縮、傳輸與呈現(xiàn)能力的突破,使6DoF空間視頻真正具備了實(shí)時(shí)分發(fā)和規(guī);渴饤l件,也讓它從實(shí)驗(yàn)室走向可落地的產(chǎn)品形態(tài)。目前,全息通信已提供全套解決方案,點(diǎn)播和直播已對(duì)外提供關(guān)鍵點(diǎn)技術(shù)展示。

對(duì)火山引擎而言,空間視頻并不是一次炫技式發(fā)布,而是在為下一代視頻基礎(chǔ)設(shè)施鋪路。當(dāng)采集不用依賴昂貴設(shè)備,傳輸不需要專線網(wǎng)絡(luò),呈現(xiàn)也能在手機(jī)等普通終端完成,空間視頻將逐步具備進(jìn)入規(guī)模化市場(chǎng)。

       原文標(biāo)題 : 火山引擎智能3D視頻啟動(dòng)商業(yè)化,計(jì)劃落地直播應(yīng)用

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)