訂閱
糾錯
加入自媒體

蘋果發(fā)布VSSFlow模型:讓無聲視頻「開口說話」,加速為國行版AI鋪路?

2026-02-12 09:43
雷科技
關(guān)注

有點用,但又不是那么有用。

2024年的WWDC上,蘋果公布了自家的人工智能平臺Apple Intelligence。2024年秋季,Apple Intelligence在美國開啟測試,后續(xù)逐漸拓展到更多地區(qū)。

不過,到目前為止,國行Apple Intelligence仍然沒有落地。對此,蘋果官方的說法是「Apple 智能推出時間依監(jiān)管部門審批情況而定!

ScreenShot_2026-02-10_144604_520.png

(圖源:蘋果)

日前,知名蘋果爆料網(wǎng)站9to5Mac發(fā)文稱,蘋果聯(lián)合中國人民大學(xué)推出了VSSFlow新型AI模型,宣布在音頻生成技術(shù)取得了突破。蘋果此舉不僅是一次AI技術(shù)實力的展示,同時似乎也在釋放和國行Apple Intelligence相關(guān)的積極信號,Apple智能真的要來了嗎?

無聲視頻自動配音,VSSFlow能解決哪些難題?

通過蘋果和中國人民大學(xué)聯(lián)合發(fā)布的論文以及9to5Mac的相關(guān)報道,我們可以了解到,VSSFlow的主要亮點是打破了以往「環(huán)境音」和「對話語音」需要分別生成的限制。具體來說,以往的大部分視頻生成語音模型,都是把音頻中的環(huán)境音和人聲分開處理,而VSSFlow的優(yōu)勢在于一站式同步生成。

315703d2-3be7-48ce-9788-7703d024e5af.png

(圖源:arXiv)

根據(jù)官方的說法,VSSFlow模型生成環(huán)境音的方式是每秒讀取10幀視頻畫面作為線索,然后在隨機噪聲中逐步「構(gòu)建」出畫面的聲音。這個表述聽起來很簡單,但實現(xiàn)起來并不容易。一段沒有聲音的視頻,AI當然也不可能「聽」得到,本質(zhì)上還是根據(jù)視頻畫面來「猜」最接近最真實的環(huán)境音,比如判斷出畫面中的具體現(xiàn)實場景,再匹配相應(yīng)的環(huán)境音。

VSSFlow對應(yīng)的論文提到了關(guān)鍵的技術(shù)點——Flow-matching(流匹配),在AI世界中,模型需要通過雜亂的信息推理生成最可能的聲音。視頻畫面中藏著聲音對應(yīng)的線索,AI就是要在這些雜亂的「噪音」和目標聲音之間建立起到達的路徑,也就是「流」。建立「流」的關(guān)鍵,是對視頻畫面和文字腳本的準確理解。

image.png

(圖源:arXiv)

至于文本生成語音的能力,在早期就存在很多解決方案。比如說,早前的智能手機以及很多閱讀App,都有TTS(文字轉(zhuǎn)語音)功能,它們只要把文字直接轉(zhuǎn)成語音庫里的預(yù)制音頻即可。不過,這種方案比較簡單粗暴,聲音聽起來機械感明顯,長句斷句會很奇怪。AI時代,大模型加持的文字轉(zhuǎn)語音體驗得到了大幅升級,真人感更明顯,無論是斷句、語氣還是情緒,都逐漸能做到以假亂真。

VSSFlow的視頻生成人聲技術(shù),特點在于通過視頻腳本+視頻畫面來生成音頻,可以通過畫面中人物的口型、表情等因素來匹配語音的語氣、情緒、節(jié)奏等,從而生成更真實的AI人聲。

開頭說到了,VSSFlow能夠同時為視頻生成環(huán)境聲和人聲,根據(jù)官方描述,他們將視頻信號和文本轉(zhuǎn)錄一起嵌入到音頻生成的過程中。為了達到這一效果,研究人員進行了混合數(shù)據(jù)訓(xùn)練,具體表現(xiàn)為VSSFlow模型訓(xùn)練時使用了無聲視頻配環(huán)境音、無聲說話視頻配文本、以及純文本轉(zhuǎn)語音的數(shù)據(jù)。

簡單總結(jié)下,VSSFlow是一款視頻生成音頻大模型,能同時為無聲視頻生成環(huán)境聲和人聲,核心優(yōu)勢在于通過流匹配技術(shù)提升了生成效率和音頻質(zhì)量。

用AI生成語音,有點用但仍然太局限

VSSFlow幫助視頻生成環(huán)境音和人聲的功能,具體能應(yīng)用到哪些場景呢?小雷能想到的大概就是老舊電影的音頻修復(fù)、失語障礙人士的輔助音頻、影視作品配音等。畢竟,VSSFlow仍然需要依賴文字腳本來生成人聲,不能只根據(jù)視頻畫面來推測出人聲,這將讓它更接近于一款更好用的配音工具。

目前市面上和VSSFlow最接近的大模型,應(yīng)該是谷歌的Deepmind V2A(視頻轉(zhuǎn)音頻)。V2A也是根據(jù)視頻畫面和文字腳本來生成對應(yīng)的環(huán)境音和人物對話,它的技術(shù)方案是在視覺信息和聽覺信息之間建立起映射機制。

具體來說,視覺信息包含的主要是空間、色彩、形狀、運動等,聽覺信息一般是音色、頻率、節(jié)奏等,二者是不同的語義。將視覺特征和聽覺特征進行多層次的映射,持續(xù)訓(xùn)練后,AI就能根據(jù)視頻畫面的信息「猜」出它應(yīng)該匹配何種聽覺特征的音頻。

image.png

(圖源:谷歌)

不過,在小雷看來,視頻生成語音技術(shù)的應(yīng)用場景,還是略微局限了一些。對普通用戶來說,這項功能的作用不是特別大。作為對比,當下流行的視頻生成技術(shù),更加受創(chuàng)作者和普通用戶歡迎。使用者只要用一段話、幾張圖片,就能快速生成一段高真實度的視頻,實用性和趣味性都能瞬間拉滿。比如最近的Seedance 2.0,剛上線就火爆全網(wǎng),大量用戶第一時間就嘗鮮體驗了。

image.png

(圖源:雷科技,用Seedance 2.0制作)

但給無聲視頻配音這個場景,大部分人都很難遇到,畢竟我們不會無緣無故制作或者得到一段無聲視頻。它更加適用于影視制作行業(yè)中的某些細分領(lǐng)域,比如傳統(tǒng)擬音師的工作。

我們在很多影視作品中聽到的環(huán)境聲和動作聲,其實都是擬音師在錄音棚里錄的,比如敲擊椰子殼模擬馬蹄聲、搓動門鎖模擬手槍上膛聲等。同時,VSSFlow根據(jù)腳本和畫面生成人聲的功能,和動漫聲優(yōu)所做的配音工作很接近?梢韵胂蟮降氖,音頻生成技術(shù)未來對影視行業(yè)產(chǎn)生的沖擊力會相當大。

同時,VSSFlow為代表的語音生成模型,固然不太可能作為獨立的應(yīng)用向普通用戶推出,但和其他AI技術(shù)結(jié)合,會發(fā)揮出更大作用。比如它可以和視頻生成模型相結(jié)合,現(xiàn)在流行的視頻生成模型制作出來的視頻,大多會有配音。

不過,很多AI生成視頻的背景音和人聲質(zhì)量都相對一般,如果有VSSFlow之類的語音生成模型助力,那么整體的效果會更好。實際上,谷歌Deepmind的V2A技術(shù)并沒有以單獨模型的方式發(fā)布,而是將部分功能整合在谷歌自家的視頻生成模型Veo中。

蘋果聯(lián)手國內(nèi)重點高校,國行版AI要來了?

對于蘋果產(chǎn)品,VSSFlow能落地的場景,小雷首先想到的是無障礙功能。目前蘋果設(shè)備的輔助選項中已經(jīng)有實時語音功能,即用戶可以手機上打字,然后轉(zhuǎn)成音頻。

image.png

(圖源:蘋果)

如果VSSFlow能運用到這個場景里,那么語言障礙人士就可以在FaceTime之類的視頻通話中,邊輸入文字,邊讓AI結(jié)合視頻畫面生成更自然的人聲。當然,這項技術(shù)也能作為蘋果在AI領(lǐng)域的儲備,為后續(xù)視頻生成等功能或應(yīng)用提供助力。

而且,蘋果和國內(nèi)重點高校合作、聯(lián)合發(fā)布VSSFlow,無疑是在釋放愿意深耕國內(nèi)市場、推動國行AI落地的積極信號。在VSSFlow的論文中,署名者中六位是來自中國人民大學(xué)的學(xué)者,三位是蘋果的研究員。在這個項目中,蘋果扮演的角色更接近于支持者、參與者而非主導(dǎo)者。

目前,國行版Apple Intelligence尚未推出。按照蘋果的政策,國行版iPhone等設(shè)備無法使用外版Apple Intelligence,未來外版硬件產(chǎn)品也不能用國行版Apple Intelligence。

基本可以確定的是,國行版Apple Intelligence的落地過程中,蘋果會和國內(nèi)AI巨頭達成合作。之前的傳言中,百度、阿里、DeepSeek等都是蘋果接觸過的廠商。2025年,彭博社知名記者馬克·古爾曼曾透露,國行Apple Intelligence采用的方案是阿里提供本地模型支持,百度文心一言提供云端AI支持。不過,國行Apple Intelligence 2025年未能落地,主要原因在于遇到了一些工程難題,同時國行AI的表現(xiàn)比較一般。

不過即便忽略國行版AI缺位的事實,蘋果的AI布局相對其他廠商是比較落后的。目前而言,海外版Apple Intelligence實現(xiàn)的功能和場景,其實沒有太多特別之處,反而因為其相對羸弱的AI實力而被吐槽。比如說,蘋果近年推出的生成式圖片App「圖樂園(Image Playground)」,就飽受批評。這款A(yù)pp對圖片生成行為的管控非常嚴格,很多用戶的需求都被拒絕,被吐槽為只適合兒童使用的產(chǎn)品。

Apple Intelligence還引入了外部力量來幫忙,主要是ChatGPT,后續(xù)還有Gemini。其中,ChatGPT植入到了Siri中,讓Siri更像一個完全體的智能助理而非傳統(tǒng)的語音助手。另外,AI相關(guān)的功能還有寫作助理、圖片消除等。只是,蘋果這些所謂的AI功能,實際體驗起來震撼感不夠強,有點小打小鬧的感覺。

而且,蘋果為iOS 26畫的AI餅,至今還沒讓用戶吃上。根據(jù)最新消息,iOS 26.4的首個測試版將于2月底推送,會給AI帶來一點變化。這次系統(tǒng)升級,主要就是Siri會得到增強,包括擁有上下文理解能力、跨應(yīng)用操作能力和屏幕感知識別能力。坦率說,這些升級仍然不會有什么驚喜感,只是多少會讓iOS 26變得更好用點。

作為對照組的三星,早在2024年就推出了AI手機,并且快速完成了國行手機的AI本地化。具體來說,國行版手機中負責(zé)文本理解和生成的大模型為百度的文心一言,具體在筆記助手、錄音轉(zhuǎn)錄摘要等場景中發(fā)揮作用;它的生成式圖片編輯器則集成了美圖的奇想智能模型,實現(xiàn)智能消除、擴圖等功能;國行版的即圈即搜功能,后臺數(shù)據(jù)來源于百度搜索和京東。另外,三星國行手機也有部分端側(cè)AI功能,通話實時翻譯和分屏同傳翻譯,都是基于三星自研本地AI模型實現(xiàn)的。

galaxy-ai_ft03-01_transcript_assist_pc_1140x714_v4.7.jpg

(圖源:三星)

換言之,蘋果國行AI方案,大體上抄三星的作業(yè)就行。相比海外版Apple Intelligence,國行版的核心工作就是將其中涉及到的大模型替換成國內(nèi)的,三星已經(jīng)做出了示范。

小雷個人認為,蘋果國行AI進展緩慢,主要責(zé)任還是在蘋果身上。畢竟,海外Apple Intelligence的落地過程也是一路磕磕絆絆,而且AI功能的實際體驗很一般。以這樣的執(zhí)行力去推動國行Apple Intelligence項目,效率可想而知。

當然,不管怎么說,蘋果參與的VSSFlow的到來,至少說明了蘋果在AI領(lǐng)域不是毫無作為。如果蘋果能持續(xù)在AI研究領(lǐng)域產(chǎn)出成果,那么蘋果硬件AI化進程將從中獲益,這才是構(gòu)建未來蘋果底層競爭力的關(guān)鍵。

紅包.png

蘋果Apple IntelligenceVSSFlowAI大模型

來源:雷科技

本文圖片來自:123RF 正版圖庫       來源:雷科技

       原文標題 : 蘋果發(fā)布VSSFlow模型:讓無聲視頻「開口說話」,加速為國行版AI鋪路?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號