123,123,123

國產多模態(tài)搜索史詩級突破！Qwen3-VL登頂MMEB：支持30+語言,一套模型搞定圖文視頻

2026-01-12 16:51

AI生成未來

關注

作者：Mingxin Li等

解讀：AI生成未來

亮點直擊

推出了基于 Qwen3-VL 基礎模型的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列模型。

一套端到端的高精度多模態(tài)搜索pipeline，能夠將文本、圖像、視覺文檔和視頻映射到統(tǒng)一的表示空間。

Embedding 模型在 MMEB-V2 基準測試中得分為 77.8，排名第一，且支持俄羅斯套娃（Matryoshka）表示學習和量化，兼顧了性能與效率。

圖 1：統(tǒng)一多模態(tài)表示空間的圖示。 Qwen3-VL-Embedding 模型系列將多源數(shù)據(jù)（文本、圖像、視覺文檔和視頻）表示為公共流形。通過跨模態(tài)（例如文本“城市建筑”及其相應圖像）調整語義概念，該模型實現(xiàn)了對復雜視覺和文本信息的整體理解。圖 1：統(tǒng)一多模態(tài)表示空間的圖示。 Qwen3-VL-Embedding 模型系列將多源數(shù)據(jù)（文本、圖像、視覺文檔和視頻）表示為公共流形。通過跨模態(tài)（例如文本“城市建筑”及其相應圖像）調整語義概念，該模型實現(xiàn)了對復雜視覺和文本信息的整體理解。

解決的問題

多模態(tài)內容的激增：互聯(lián)網(wǎng)上充斥著圖像、文檔、視頻等多種數(shù)據(jù)，傳統(tǒng)僅基于文本的搜索無法滿足需求。

跨模態(tài)語義對齊難：需要精準理解和匹配不同模態(tài)間的語義概念（如“城市建筑”文本與對應圖片的匹配）。

復雜文檔與長視頻處理：現(xiàn)有模型在處理包含密集信息的圖表、長文檔和長視頻時往往力不從心。

部署效率與存儲成本：高維向量帶來的存儲和檢索成本限制了大規(guī)模應用。

提出的方案

統(tǒng)一框架：基于強大的 Qwen3-VL 基礎模型，構建了包含 Embedding（檢索）和 Reranker（精排）的雙模型架構。

多階段訓練策略：從大規(guī)模合成數(shù)據(jù)的對比預訓練，到多任務對比學習與 SFT，再到從 Reranker 模型蒸餾，逐步提升模型能力。

數(shù)據(jù)工廠：構建了自動化的數(shù)據(jù)合成與清洗流水線，生成了超過 3 億條高質量的多模態(tài)訓練數(shù)據(jù)。

應用的技術

多階段訓練：預訓練 -> 多任務微調 -> 蒸餾與模型合并。

困難負樣本挖掘：通過兩階段篩選（召回與相關性過濾）提升數(shù)據(jù)質量。

知識蒸餾：利用 Cross-Encoder 架構的 Reranker 指導 Embedding 模型的訓練。

俄羅斯套娃表示學習 (Matryoshka Representation Learning, MRL) ：允許模型輸出不同維度的向量，靈活適應不同存儲需求。

量化感知訓練 (Quantization-Aware Training, QAT) ：支持 int8 和二進制量化，確保存儲效率。

達到的效果

SOTA 性能：Qwen3-VL-Embedding-8B 在 MMEB-V2 上取得 77.8 分，超越了包括閉源 API 在內的所有現(xiàn)有模型。

純文本能力強：在 MTEB 多語言基準上得分為 67.9，保持了極具競爭力的純文本檢索能力。

高效部署：支持最大 32k token 輸入，且通過 MRL 和量化技術顯著降低了存儲和推理成本。模型架構

圖 2：Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架構概述

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 旨在對多模態(tài)實例進行任務感知的相關性判斷。

Embedding 模型：采用雙編碼器 (Bi-encoder) 架構，生成實例的密集向量表示，并使用余弦相似度作為相關性度量。

Reranking 模型：采用交叉編碼器 (Cross-encoder) 架構，對查詢-文檔對 (Query-Document Pair) 提供更細粒度的相關性評估。

模型架構基礎：兩者均基于 Qwen3-VL 骨干網(wǎng)絡，使用因果注意力機制。經(jīng)過大規(guī)模多模態(tài)、多任務相關性數(shù)據(jù)訓練后，模型保留了骨干網(wǎng)絡的世界知識、多模態(tài)感知和指令跟隨能力，同時獲得了評估相關性的能力。本工作訓練了兩種規(guī)模的模型——2B 和 8B。下表1總結了兩者：

Embedding 方法： Embedding 模型提取多模態(tài)輸入的任務感知密集向量。輸入格式遵循 Qwen3-VL 上下文結構：

System Message: 傳入指令（Instruction），默認指令為 "Represent the user's input."。User Message: 傳入待表示的多模態(tài)實例，可以是文本、圖像、視頻或其組合。最后，在輸入后附加一個 PAD (<|endoftext|>) token，該 token 對應的最后一層隱藏狀態(tài)即為實例的密集向量表示。

Reranking 方法： Reranking 模型采用 Pointwise 排序方法。

System Message: 傳入判斷相關性的指令，要求答案只能是 "yes" 或 "no"。User Message: 包含具體的以及待評估的查詢和文檔。輸出: 通過計算模型預測下一個 token 為 "yes" 或 "no" 的概率來獲得相關性評分。

數(shù)據(jù)

為了賦予模型跨越不同模態(tài)、任務和領域的通用表示能力，策劃了一個大規(guī)模數(shù)據(jù)集。數(shù)據(jù)集內不同類別的分布如圖 3 所示。然而，無論是公開可用的數(shù)據(jù)還是專有的內部數(shù)據(jù)，在這些維度上都表現(xiàn)出顯著的不平衡，并且在特定場景中存在明顯的稀缺性。為了解決這些挑戰(zhàn)，我們利用數(shù)據(jù)合成來構建一個平衡的訓練語料庫，確保對所有模態(tài)、任務和領域進行穩(wěn)健的覆蓋。

數(shù)據(jù)集格式

完整的數(shù)據(jù)集包含多個子數(shù)據(jù)集，表示為。每個子數(shù)據(jù)集由一個四元組定義，結構如下：

指令 (Instruction, ) ：一段文本描述，定義了該子數(shù)據(jù)集特定的相關性標準和任務目標。

查詢 (Queries, ) ：個查詢對象的集合，。每個可以由文本、圖像、視頻或其任意多模態(tài)組合構成。

語料庫 (Corpus, ) ：個文檔對象的存儲庫，。與查詢類似，每個可以是單一模態(tài)，也可以是文本、圖像和視頻的多模態(tài)組合。

相關性標簽 (Relevance Labels, ) ：該組件標識查詢與文檔之間的關系，表示為。對于每個查詢，表示相關文檔（正樣本）集合，而表示不相關文檔（負樣本）集合。

附錄 A 中展示了代表性的數(shù)據(jù)集示例。

數(shù)據(jù)合成

采用數(shù)據(jù)合成來構建各種子數(shù)據(jù)集。具體來說，將 Qwen3 Embedding中引入的方法擴展到了多模態(tài)場景。如 圖 4 所示，首先策劃了一個多樣化的種子多模態(tài)內容（例如，來自 Web 的圖像/視頻）。然后，利用 Qwen3-VL-Instruct 生成：(1) 合成指令，(2) 合成查詢，以及 (3) 偽相關性標簽。

具體過程如下：

種子內容策劃：從公開數(shù)據(jù)集和網(wǎng)絡抓取中收集了大量的圖像和視頻，經(jīng)過重復數(shù)據(jù)刪除和安全過濾，形成了種子語料庫。

指令生成：對于中的每個項目，我們提示 Qwen3-VL-Instruct 生成描述潛在檢索任務的指令。例如，“為這個圖像生成一個搜索查詢”或“描述一個與此視頻剪輯相匹配的用戶查詢”。

查詢生成：基于指令和內容，模型生成相應的查詢。為了增加多樣性，我們提示模型生成不同粒度（例如，粗粒度的類別與細粒度的描述）和不同模態(tài)（例如，文本查詢、相關圖像查詢）的查詢。

偽標簽生成：最初生成的查詢與種子內容配對作為正樣本，形成。為了進一步細化這些標簽，使用在初步數(shù)據(jù)上訓練的早期 Embedding 模型版本執(zhí)行檢索，并應用下一節(jié)中描述的過濾技術。

這種合成方法使我們能夠創(chuàng)建大規(guī)模、多樣化且任務特定的訓練數(shù)據(jù)，解決了自然發(fā)生的多模態(tài)檢索數(shù)據(jù)稀缺的問題。

正樣本優(yōu)化與困難負樣本挖掘

困難負樣本在對比表示學習中起著至關重要的作用。為了提高正樣本對的質量并識別有效的困難負樣本，實施了一個自動化的兩階段挖掘流水線：召回 (Recall) 和相關性過濾 (Relevance Filtering)。

召回 (Recall) ：對于每個子數(shù)據(jù)集，使用一個 Embedding 模型提取所有查詢和文檔的表示。對于每個查詢，我們基于余弦相似度檢索出 Top-K 最相關的候選文檔，其相關性分數(shù)記為。

相關性過濾 (Relevance Filtering) ：最后，基于相關性分數(shù) 優(yōu)化相關性標簽以消除噪聲：

正樣本優(yōu)化 (Positive Refinement) ：僅當至少有一個正文檔的得分時才保留查詢，其中是作為分數(shù)閾值的超參數(shù)。如果沒有這樣的候選文檔存在，則丟棄查詢。困難負樣本選擇 (Hard Negative Selection) ：對于一個有效的查詢，我們計算其優(yōu)化后的正樣本的平均得分。任何非正文檔僅當其得分滿足時才被選為困難負樣本，其中是一個小的安全邊際，用于防止包含“假陰性”樣本。訓練策略

為了訓練我們的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker，采用了多階段訓練流水線，如圖 5 所示。這種方法旨在減輕大量弱監(jiān)督數(shù)據(jù)與稀缺高質量樣本之間的數(shù)據(jù)不平衡。模型首先在大量弱監(jiān)督、嘈雜的數(shù)據(jù)上進行預訓練，以建立相關性理解的基線并提升泛化能力。然后，我們在高質量、特定任務的數(shù)據(jù)集上進行微調，引導模型進行更精確的相關性評分和細粒度交互。除了上述原因外，多階段訓練策略的另一個目標是引導提升數(shù)據(jù)質量和模型性能。隨著訓練通過連續(xù)階段進行，模型的能力不斷增強。這種改進反過來促進了更有效的數(shù)據(jù)挖掘，從而優(yōu)化了訓練數(shù)據(jù)的質量。這種迭代循環(huán)最終導致模型整體性能的大幅提升。

多階段訓練

實施了如下的三階段訓練策略：

階段 1：對比預訓練 (Stage 1: Contrastive Pre-training)為了對齊多模態(tài)表示空間并增強對各種模態(tài)、任務和領域的世界知識理解，首先在 Qwen3-VL-Instruct 模型上進行對比預訓練。在此階段，利用了 3 億個使用第 3 章中描述的合成流水線生成的合成多模態(tài)對。這些數(shù)據(jù)包含了廣泛的領域和任務，為穩(wěn)健的表示學習提供了基礎。由此產生的模型記為 Qwen3-VL-Embedding: s0。

階段 2：多任務對比學習 (Stage 2: Multi-task Contrastive Learning)在此階段，我們在包含 4000 萬個樣本的高質量數(shù)據(jù)集上微調 s0 模型。該數(shù)據(jù)集是通過利用 s0 模型的檢索能力，從合成池以及公開和專有數(shù)據(jù)源中挖掘得到的。此階段不僅通過更高質量的數(shù)據(jù)細化了 Embedding 模型，還利用特定的檢索數(shù)據(jù)子集訓練了 Qwen3-VL-Reranker。由此產生的 Embedding 模型記為 Qwen3-VL-Embedding: s1。

階段 3：蒸餾與模型合并 (Stage 3: Distillation and Model Merging)為了進一步提升檢索性能，我們利用 Qwen3-VL-Reranker 模型的評分能力，將其知識蒸餾到 Embedding 模型中。我們使用 s1 模型挖掘了 400 萬個困難負樣本，創(chuàng)建了一個專注于具有挑戰(zhàn)性區(qū)分的訓練集。這一過程產生了 Qwen3-VL-Embedding: s2。最后，為了保持通用能力并在廣泛的任務中保持平衡的性能，我們將 s2 模型的權重與 s1 模型合并，得到最終模型 Qwen3-VL-Embedding: s3。

實現(xiàn)細節(jié)

基礎模型Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 系列基于 Qwen3-VL-Instruct 模型 (Qwen Team, 2024) 構建，利用了其強大的多模態(tài)理解和推理能力。

訓練配置所有模型均使用 AdamW 優(yōu)化器進行訓練。對于 Qwen3-VL-Embedding 系列，將最大學習率設置為。對于 Qwen3-VL-Reranker 系列，最大學習率為。為了提高訓練效率，我們采用了 LoRA 微調并啟用了 Flash Attention。

輸入配置模型支持的最大上下文長度為 32k tokens。圖像輸入被調整大小以保持其原始縱橫比，最長邊限制為 1280 像素。對于視頻輸入，我們每秒采樣一幀，最大幀數(shù)限制為 64。

訓練目標

下面詳細介紹了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型的訓練目標。

Embedding 模型的損失函數(shù)

Embedding 模型的訓練采用了多任務學習目標，結合了 InfoNCE 損失、CoSent 損失、MRL 損失、二值量化損失以及蒸餾損失。

檢索任務 (Retrieval Tasks)對于檢索任務，我們采用 InfoNCE 損失。對于批次中的查詢、其正文檔和負文檔集合，損失定義為：

其中表示余弦相似度，是溫度超參數(shù)。我們在批次內使用負樣本，并輔以從第 3.3 節(jié)所述挖掘出的困難負樣本。

語義文本相似度 (STS) 任務 (Semantic Textual Similarity Tasks)對于 STS 任務，為了利用細粒度的相似度分數(shù)，使用 CoSent 損失：

其中和分別表示正樣本對和負樣本對的集合，是縮放因子。

分類任務 (Classification Tasks)對于分類任務，我們將標簽描述視為查詢，將輸入（圖像/視頻）視為文檔。損失類似于，但在構建負樣本時，我們僅包括來自不同類別的樣本，并排除同一類別的任何樣本以避免假陰性。

知識蒸餾 (Knowledge Distillation)在第 3 階段，我們應用知識蒸餾，使 Embedding 模型的分數(shù)分布與 Reranker 教師模型的分數(shù)分布對齊。對于查詢和一組候選文檔，蒸餾損失為：

其中和分別是教師和學生模型在上的 softmax 歸一化得分分布。

俄羅斯套娃表示學習 (Matryoshka Representation Learning, MRL)為了支持靈活的嵌入維度，采用了 MRL。對于一組嵌套維度，總損失為：

其中表示截斷到前維的嵌入，是權重系數(shù)。

量化感知訓練 (Quantization-Aware Training)為了確保二進制量化后的高性能，我們在訓練期間加入量化損失。如 (Zhang et al., 2025c) 建議，不對嵌入本身進行二值化，而是通過偽量化正則化項來促進二值化友好性：

其中是嵌入向量，sg 表示停止梯度 (stop-gradient) 操作。這鼓勵嵌入向量靠近超立方體的頂點。

Reranker 模型的損失函數(shù)

我們將重排序構建為一個二分類問題：給定一個查詢-文檔對，模型預測一個特殊的 yes 標記（相關）或 no 標記（不相關）。

其中表示 VLM 分配的概率。對于正樣本對，標簽為 “yes”，對于負樣本對則為 “no”。該損失函數(shù)鼓勵模型為正確的標簽分配更高的概率，從而提高排序性能 (Dai et al., 2025)。

在推理過程中，最終的相關性分數(shù)是通過對 yes 和 no 標記的 logits 之差應用 sigmoid 函數(shù)計算得出的：

評估結果

MMEB-V2 基準測試 ：Qwen3-VL-Embedding-8B 取得了 77.8 的總分，在圖像、視頻、視覺文檔等所有子任務中均表現(xiàn)優(yōu)異，超越了 VLM2Vec、GME 以及閉源模型（如 Google Gemini Embedding, OpenAI text-embedding-3-large）。

視覺文檔檢索 (Visual Document Retrieval) ：在 VisRAG、ViDoRe 等多個基準上，Qwen3-VL-Embedding 和 Reranker 系列模型展現(xiàn)了統(tǒng)治級的性能，優(yōu)于 ColPali 和 ColQwen2 等模型。

純文本基準 (Text Benchmarks) ：雖然是多模態(tài)模型，但在 MMTEB 純文本榜單上，Qwen3-VL-Embedding-8B 達到了 67.9 的均分，與同等規(guī)模的純文本 Embedding 模型能力相當。

Reranking 性能 ：Qwen3-VL-Reranker-8B 在絕大多數(shù)重排序任務中顯著優(yōu)于基線模型，相比 2B 版本有大幅提升。

消融實驗

MRL 與量化：實驗表明，隨著維度降低，性能會有所下降，但在合理范圍內（如 1024 降至 512）性能損失微�。ḿs 1.4%），卻能帶來 50% 的存儲節(jié)省。Int8 量化幾乎不損失精度，而二進制量化在低維時會有較明顯的性能下降。

時空粒度影響：增加圖像的 Token 數(shù)和視頻的幀數(shù)能提升性能，但存在邊際效應遞減，過長的上下文甚至可能導致輕微的性能回退。

多階段訓練效果：消融研究顯示，從 S0 到 S1（多任務微調）提升顯著；S2（蒸餾）大幅提升了檢索任務性能但犧牲了部分分類能力；最終的 S3（合并）成功平衡了各項能力，實現(xiàn)了最佳的綜合性能。

結論

本報告介紹了 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker，這是面向多模態(tài)檢索的SOTA模型系列。通過將多階段訓練流水線與高質量多模態(tài)數(shù)據(jù)相結合，并最大程度地利用 Qwen3-VL 基礎模型的多模態(tài)知識和通用理解能力，Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列在廣泛的多模態(tài)檢索基準測試中實現(xiàn)了前所未有的性能，同時保持了強大的純文本能力。

此外，通過引入俄羅斯套娃表示學習（Matryoshka Representation Learning）和量化感知訓練（Quantization-Aware Training），Qwen3-VL-Embedding 系列具備了卓越的實際部署特性，在保持卓越性能的同時顯著降低了下游任務的計算成本。展望未來，有前景的研究方向包括擴展對更多模態(tài)的支持、開發(fā)更高效的訓練范式、增強組合推理能力以及建立更全面的評估協(xié)議。本工作相信這些模型代表了多模態(tài)檢索技術的重大進步，并希望它們能推動這一快速發(fā)展領域的進一步創(chuàng)新。

參考文獻

[1] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

原文標題 : 國產多模態(tài)搜索史詩級突破！Qwen3-VL登頂MMEB：支持30+語言,一套模型搞定圖文視頻