訂閱
糾錯
加入自媒體

國產多模態(tài)搜索史詩級突破!Qwen3-VL登頂MMEB:支持30+語言,一套模型搞定圖文視頻

2026-01-12 16:51
AI生成未來
關注

作者:Mingxin Li等

解讀:AI生成未來

亮點直擊

推出了基于 Qwen3-VL 基礎模型的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列模型。

一套端到端的高精度多模態(tài)搜索pipeline,能夠將文本、圖像、視覺文檔和視頻映射到統(tǒng)一的表示空間。

Embedding 模型在 MMEB-V2 基準測試中得分為 77.8,排名第一,且支持俄羅斯套娃(Matryoshka)表示學習和量化,兼顧了性能與效率。

圖 1:統(tǒng)一多模態(tài)表示空間的圖示。 Qwen3-VL-Embedding 模型系列將多源數(shù)據(jù)(文本、圖像、視覺文檔和視頻)表示為公共流形。 通過跨模態(tài)(例如文本“城市建筑”及其相應圖像)調整語義概念,該模型實現(xiàn)了對復雜視覺和文本信息的整體理解。圖 1:統(tǒng)一多模態(tài)表示空間的圖示。 Qwen3-VL-Embedding 模型系列將多源數(shù)據(jù)(文本、圖像、視覺文檔和視頻)表示為公共流形。 通過跨模態(tài)(例如文本“城市建筑”及其相應圖像)調整語義概念,該模型實現(xiàn)了對復雜視覺和文本信息的整體理解。

解決的問題

多模態(tài)內容的激增:互聯(lián)網(wǎng)上充斥著圖像、文檔、視頻等多種數(shù)據(jù),傳統(tǒng)僅基于文本的搜索無法滿足需求。

跨模態(tài)語義對齊難:需要精準理解和匹配不同模態(tài)間的語義概念(如“城市建筑”文本與對應圖片的匹配)。

復雜文檔與長視頻處理:現(xiàn)有模型在處理包含密集信息的圖表、長文檔和長視頻時往往力不從心。

部署效率與存儲成本:高維向量帶來的存儲和檢索成本限制了大規(guī)模應用。

提出的方案

統(tǒng)一框架:基于強大的 Qwen3-VL 基礎模型,構建了包含 Embedding(檢索)和 Reranker(精排)的雙模型架構。

多階段訓練策略:從大規(guī)模合成數(shù)據(jù)的對比預訓練,到多任務對比學習與 SFT,再到從 Reranker 模型蒸餾,逐步提升模型能力。

數(shù)據(jù)工廠:構建了自動化的數(shù)據(jù)合成與清洗流水線,生成了超過 3 億條高質量的多模態(tài)訓練數(shù)據(jù)。

應用的技術

多階段訓練:預訓練 -> 多任務微調 -> 蒸餾與模型合并。

困難負樣本挖掘:通過兩階段篩選(召回與相關性過濾)提升數(shù)據(jù)質量。

知識蒸餾:利用 Cross-Encoder 架構的 Reranker 指導 Embedding 模型的訓練。

俄羅斯套娃表示學習 (Matryoshka Representation Learning, MRL) :允許模型輸出不同維度的向量,靈活適應不同存儲需求。

量化感知訓練 (Quantization-Aware Training, QAT) :支持 int8 和二進制量化,確保存儲效率。

達到的效果

SOTA 性能:Qwen3-VL-Embedding-8B 在 MMEB-V2 上取得 77.8 分,超越了包括閉源 API 在內的所有現(xiàn)有模型。

純文本能力強:在 MTEB 多語言基準上得分為 67.9,保持了極具競爭力的純文本檢索能力。

高效部署:支持最大 32k token 輸入,且通過 MRL 和量化技術顯著降低了存儲和推理成本。模型架構

圖 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架構概述圖 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架構概述

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 旨在對多模態(tài)實例進行任務感知的相關性判斷。

Embedding 模型:采用雙編碼器 (Bi-encoder) 架構,生成實例的密集向量表示,并使用余弦相似度作為相關性度量。

Reranking 模型:采用交叉編碼器 (Cross-encoder) 架構,對查詢-文檔對 (Query-Document Pair) 提供更細粒度的相關性評估。

模型架構基礎: 兩者均基于 Qwen3-VL 骨干網(wǎng)絡,使用因果注意力機制。經(jīng)過大規(guī)模多模態(tài)、多任務相關性數(shù)據(jù)訓練后,模型保留了骨干網(wǎng)絡的世界知識、多模態(tài)感知和指令跟隨能力,同時獲得了評估相關性的能力。本工作訓練了兩種規(guī)模的模型——2B 和 8B。下表1總結了兩者:

Embedding 方法: Embedding 模型提取多模態(tài)輸入的任務感知密集向量。輸入格式遵循 Qwen3-VL 上下文結構:

System Message: 傳入指令(Instruction),默認指令為 "Represent the user's input."。User Message: 傳入待表示的多模態(tài)實例,可以是文本、圖像、視頻或其組合。最后,在輸入后附加一個 PAD (<|endoftext|>) token,該 token 對應的最后一層隱藏狀態(tài)即為實例的密集向量表示。

Reranking 方法: Reranking 模型采用 Pointwise 排序方法。

System Message: 傳入判斷相關性的指令,要求答案只能是 "yes" 或 "no"。User Message: 包含具體的  以及待評估的查詢和文檔。輸出: 通過計算模型預測下一個 token 為 "yes" 或 "no" 的概率來獲得相關性評分。

數(shù)據(jù)

為了賦予模型跨越不同模態(tài)、任務和領域的通用表示能力,策劃了一個大規(guī)模數(shù)據(jù)集。數(shù)據(jù)集內不同類別的分布如圖 3 所示。然而,無論是公開可用的數(shù)據(jù)還是專有的內部數(shù)據(jù),在這些維度上都表現(xiàn)出顯著的不平衡,并且在特定場景中存在明顯的稀缺性。為了解決這些挑戰(zhàn),我們利用數(shù)據(jù)合成來構建一個平衡的訓練語料庫,確保對所有模態(tài)、任務和領域進行穩(wěn)健的覆蓋。

數(shù)據(jù)集格式

完整的數(shù)據(jù)集包含多個子數(shù)據(jù)集,表示為 。每個子數(shù)據(jù)集  由一個四元組  定義,結構如下:

指令 (Instruction, ) :一段文本描述,定義了該子數(shù)據(jù)集特定的相關性標準和任務目標。

查詢 (Queries, ) : 個查詢對象的集合,。每個  可以由文本、圖像、視頻或其任意多模態(tài)組合構成。

語料庫 (Corpus, ) : 個文檔對象的存儲庫,。與查詢類似,每個  可以是單一模態(tài),也可以是文本、圖像和視頻的多模態(tài)組合。

相關性標簽 (Relevance Labels, ) :該組件標識查詢與文檔之間的關系,表示為 。對于每個查詢 , 表示相關文檔(正樣本)集合,而  表示不相關文檔(負樣本)集合。

附錄 A 中展示了代表性的數(shù)據(jù)集示例。

數(shù)據(jù)合成

采用數(shù)據(jù)合成來構建各種子數(shù)據(jù)集 。具體來說,將 Qwen3 Embedding中引入的方法擴展到了多模態(tài)場景。如 圖 4 所示,首先策劃了一個多樣化的種子多模態(tài)內容 (例如,來自 Web 的圖像/視頻)。然后,利用 Qwen3-VL-Instruct 生成:(1) 合成指令,(2) 合成查詢,以及 (3) 偽相關性標簽。

具體過程如下:

種子內容策劃:從公開數(shù)據(jù)集和網(wǎng)絡抓取中收集了大量的圖像和視頻,經(jīng)過重復數(shù)據(jù)刪除和安全過濾,形成了種子語料庫 。

指令生成:對于  中的每個項目,我們提示 Qwen3-VL-Instruct 生成描述潛在檢索任務的指令 。例如,“為這個圖像生成一個搜索查詢”或“描述一個與此視頻剪輯相匹配的用戶查詢”。

查詢生成:基于指令和內容,模型生成相應的查詢 。為了增加多樣性,我們提示模型生成不同粒度(例如,粗粒度的類別與細粒度的描述)和不同模態(tài)(例如,文本查詢、相關圖像查詢)的查詢。

偽標簽生成:最初生成的查詢與種子內容配對作為正樣本,形成 。為了進一步細化這些標簽,使用在初步數(shù)據(jù)上訓練的早期 Embedding 模型版本執(zhí)行檢索,并應用下一節(jié)中描述的過濾技術。

這種合成方法使我們能夠創(chuàng)建大規(guī)模、多樣化且任務特定的訓練數(shù)據(jù),解決了自然發(fā)生的多模態(tài)檢索數(shù)據(jù)稀缺的問題。

正樣本優(yōu)化與困難負樣本挖掘

困難負樣本在對比表示學習中起著至關重要的作用。為了提高正樣本對的質量并識別有效的困難負樣本,實施了一個自動化的兩階段挖掘流水線:召回 (Recall) 和相關性過濾 (Relevance Filtering)。

召回 (Recall) :對于每個子數(shù)據(jù)集 ,使用一個 Embedding 模型提取所有查詢  和文檔  的表示。對于每個查詢 ,我們基于余弦相似度檢索出 Top-K 最相關的候選文檔 ,其相關性分數(shù)記為 。

相關性過濾 (Relevance Filtering) :最后,基于相關性分數(shù)  優(yōu)化相關性標簽  以消除噪聲:

正樣本優(yōu)化 (Positive Refinement) :僅當至少有一個正文檔  的得分  時才保留查詢 ,其中  是作為分數(shù)閾值的超參數(shù)。如果沒有這樣的候選文檔存在,則丟棄查詢 。困難負樣本選擇 (Hard Negative Selection) :對于一個有效的查詢 ,我們計算其優(yōu)化后的正樣本的平均得分 。任何非正文檔  僅當其得分滿足  時才被選為困難負樣本,其中  是一個小的安全邊際,用于防止包含“假陰性”樣本。訓練策略

為了訓練我們的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,采用了多階段訓練流水線,如圖 5 所示。這種方法旨在減輕大量弱監(jiān)督數(shù)據(jù)與稀缺高質量樣本之間的數(shù)據(jù)不平衡。模型首先在大量弱監(jiān)督、嘈雜的數(shù)據(jù)上進行預訓練,以建立相關性理解的基線并提升泛化能力。然后,我們在高質量、特定任務的數(shù)據(jù)集上進行微調,引導模型進行更精確的相關性評分和細粒度交互。除了上述原因外,多階段訓練策略的另一個目標是引導提升數(shù)據(jù)質量和模型性能。隨著訓練通過連續(xù)階段進行,模型的能力不斷增強。這種改進反過來促進了更有效的數(shù)據(jù)挖掘,從而優(yōu)化了訓練數(shù)據(jù)的質量。這種迭代循環(huán)最終導致模型整體性能的大幅提升。

多階段訓練

實施了如下的三階段訓練策略:

階段 1:對比預訓練 (Stage 1: Contrastive Pre-training)為了對齊多模態(tài)表示空間并增強對各種模態(tài)、任務和領域的世界知識理解,首先在 Qwen3-VL-Instruct 模型上進行對比預訓練。在此階段,利用了 3 億個使用第 3 章中描述的合成流水線生成的合成多模態(tài)對。這些數(shù)據(jù)包含了廣泛的領域和任務,為穩(wěn)健的表示學習提供了基礎。由此產生的模型記為 Qwen3-VL-Embedding: s0。

階段 2:多任務對比學習 (Stage 2: Multi-task Contrastive Learning)在此階段,我們在包含 4000 萬個樣本的高質量數(shù)據(jù)集上微調 s0 模型。該數(shù)據(jù)集是通過利用 s0 模型的檢索能力,從合成池以及公開和專有數(shù)據(jù)源中挖掘得到的。此階段不僅通過更高質量的數(shù)據(jù)細化了 Embedding 模型,還利用特定的檢索數(shù)據(jù)子集訓練了 Qwen3-VL-Reranker。由此產生的 Embedding 模型記為 Qwen3-VL-Embedding: s1。

階段 3:蒸餾與模型合并 (Stage 3: Distillation and Model Merging)為了進一步提升檢索性能,我們利用 Qwen3-VL-Reranker 模型的評分能力,將其知識蒸餾到 Embedding 模型中。我們使用 s1 模型挖掘了 400 萬個困難負樣本,創(chuàng)建了一個專注于具有挑戰(zhàn)性區(qū)分的訓練集。這一過程產生了 Qwen3-VL-Embedding: s2。最后,為了保持通用能力并在廣泛的任務中保持平衡的性能,我們將 s2 模型的權重與 s1 模型合并,得到最終模型 Qwen3-VL-Embedding: s3。

實現(xiàn)細節(jié)

基礎模型Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列基于 Qwen3-VL-Instruct 模型 (Qwen Team, 2024) 構建,利用了其強大的多模態(tài)理解和推理能力。

訓練配置所有模型均使用 AdamW 優(yōu)化器進行訓練。對于 Qwen3-VL-Embedding 系列,將最大學習率設置為 。對于 Qwen3-VL-Reranker 系列,最大學習率為 。為了提高訓練效率,我們采用了 LoRA 微調并啟用了 Flash Attention。

輸入配置模型支持的最大上下文長度為 32k tokens。圖像輸入被調整大小以保持其原始縱橫比,最長邊限制為 1280 像素。對于視頻輸入,我們每秒采樣一幀,最大幀數(shù)限制為 64。

訓練目標

下面詳細介紹了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型的訓練目標。

Embedding 模型的損失函數(shù)

Embedding 模型的訓練采用了多任務學習目標,結合了 InfoNCE 損失、CoSent 損失、MRL 損失、二值量化損失以及蒸餾損失。

檢索任務 (Retrieval Tasks)對于檢索任務,我們采用 InfoNCE 損失。對于批次  中的查詢 、其正文檔  和負文檔集合 ,損失定義為:

其中  表示余弦相似度, 是溫度超參數(shù)。我們在批次內使用負樣本,并輔以從第 3.3 節(jié)所述挖掘出的困難負樣本。

語義文本相似度 (STS) 任務 (Semantic Textual Similarity Tasks)對于 STS 任務,為了利用細粒度的相似度分數(shù),使用 CoSent 損失:

其中  和  分別表示正樣本對和負樣本對的集合, 是縮放因子。

分類任務 (Classification Tasks)對于分類任務,我們將標簽描述視為查詢,將輸入(圖像/視頻)視為文檔。損失類似于 ,但在構建負樣本時,我們僅包括來自不同類別的樣本,并排除同一類別的任何樣本以避免假陰性。

知識蒸餾 (Knowledge Distillation)在第 3 階段,我們應用知識蒸餾,使 Embedding 模型的分數(shù)分布與 Reranker 教師模型的分數(shù)分布對齊。對于查詢  和一組候選文檔 ,蒸餾損失為:

其中  和  分別是教師和學生模型在  上的 softmax 歸一化得分分布。

俄羅斯套娃表示學習 (Matryoshka Representation Learning, MRL)為了支持靈活的嵌入維度,采用了 MRL。對于一組嵌套維度 ,總損失為:

其中  表示截斷到前  維的嵌入, 是權重系數(shù)。

量化感知訓練 (Quantization-Aware Training)為了確保二進制量化后的高性能,我們在訓練期間加入量化損失。如 (Zhang et al., 2025c) 建議,不對嵌入本身進行二值化,而是通過偽量化正則化項來促進二值化友好性:

其中  是嵌入向量,sg 表示停止梯度 (stop-gradient) 操作。這鼓勵嵌入向量靠近超立方體的頂點。

Reranker 模型的損失函數(shù)

我們將重排序構建為一個二分類問題:給定一個查詢-文檔對,模型預測一個特殊的 yes 標記(相關)或 no 標記(不相關)。

其中  表示 VLM 分配的概率。對于正樣本對,標簽  為 “yes”,對于負樣本對則為 “no”。該損失函數(shù)鼓勵模型為正確的標簽分配更高的概率,從而提高排序性能 (Dai et al., 2025)。

在推理過程中,最終的相關性分數(shù)是通過對 yes 和 no 標記的 logits 之差應用 sigmoid 函數(shù)計算得出的:

評估結果

MMEB-V2 基準測試 :Qwen3-VL-Embedding-8B 取得了 77.8 的總分,在圖像、視頻、視覺文檔等所有子任務中均表現(xiàn)優(yōu)異,超越了 VLM2Vec、GME 以及閉源模型(如 Google Gemini Embedding, OpenAI text-embedding-3-large)。

視覺文檔檢索 (Visual Document Retrieval) :在 VisRAG、ViDoRe 等多個基準上,Qwen3-VL-Embedding 和 Reranker 系列模型展現(xiàn)了統(tǒng)治級的性能,優(yōu)于 ColPali 和 ColQwen2 等模型。

純文本基準 (Text Benchmarks) :雖然是多模態(tài)模型,但在 MMTEB 純文本榜單上,Qwen3-VL-Embedding-8B 達到了 67.9 的均分,與同等規(guī)模的純文本 Embedding 模型能力相當。

Reranking 性能 :Qwen3-VL-Reranker-8B 在絕大多數(shù)重排序任務中顯著優(yōu)于基線模型,相比 2B 版本有大幅提升。

消融實驗

MRL 與量化:實驗表明,隨著維度降低,性能會有所下降,但在合理范圍內(如 1024 降至 512)性能損失微。s 1.4%),卻能帶來 50% 的存儲節(jié)省。Int8 量化幾乎不損失精度,而二進制量化在低維時會有較明顯的性能下降。

時空粒度影響:增加圖像的 Token 數(shù)和視頻的幀數(shù)能提升性能,但存在邊際效應遞減,過長的上下文甚至可能導致輕微的性能回退。

多階段訓練效果:消融研究顯示,從 S0 到 S1(多任務微調)提升顯著;S2(蒸餾)大幅提升了檢索任務性能但犧牲了部分分類能力;最終的 S3(合并)成功平衡了各項能力,實現(xiàn)了最佳的綜合性能。

結論

本報告介紹了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker,這是面向多模態(tài)檢索的SOTA模型系列。通過將多階段訓練流水線與高質量多模態(tài)數(shù)據(jù)相結合,并最大程度地利用 Qwen3-VL 基礎模型的多模態(tài)知識和通用理解能力,Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列在廣泛的多模態(tài)檢索基準測試中實現(xiàn)了前所未有的性能,同時保持了強大的純文本能力。

此外,通過引入俄羅斯套娃表示學習(Matryoshka Representation Learning)和量化感知訓練(Quantization-Aware Training),Qwen3-VL-Embedding 系列具備了卓越的實際部署特性,在保持卓越性能的同時顯著降低了下游任務的計算成本。展望未來,有前景的研究方向包括擴展對更多模態(tài)的支持、開發(fā)更高效的訓練范式、增強組合推理能力以及建立更全面的評估協(xié)議。本工作相信這些模型代表了多模態(tài)檢索技術的重大進步,并希望它們能推動這一快速發(fā)展領域的進一步創(chuàng)新。

參考文獻

[1] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

       原文標題 : 國產多模態(tài)搜索史詩級突破!Qwen3-VL登頂MMEB:支持30+語言,一套模型搞定圖文視頻

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號