聊聊MoA(混合智能體架構(gòu)):如何激發(fā)LLM潛力并掀起語言模型協(xié)作革命?
全文約 3500 字,預(yù)計閱讀時間約 9 分鐘
近年來,大型語言模型(LLMs)在自然語言處理領(lǐng)域掀起了一場風(fēng)暴,從對話生成到復(fù)雜任務(wù)推理,它們的表現(xiàn)令人驚嘆。然而,單個模型的性能總有瓶頸,訓(xùn)練成本高昂且資源需求巨大。如何突破這一限制?
今天我們來聊聊 Together AI 團隊在近一年前提出的一種名為 Mixture-of-Agents (MoA) 的創(chuàng)新方法,通過多模型協(xié)作,顯著提升了語言生成質(zhì)量。這項研究不僅在學(xué)術(shù)界引起轟動,還僅靠開源模型,在 AlpacaEval 2.0 等權(quán)威基準測試中超越了 GPT-4 Omni,實現(xiàn) SOTA,展現(xiàn)了開源模型的驚人潛力。本文將帶你深入了解 MoA 技術(shù)的創(chuàng)新之處、實驗設(shè)計與驚艷成果,揭開這場協(xié)作革命的面紗。
MoA:協(xié)作的力量重塑語言模型
MoA 的核心理念源于一個有趣的發(fā)現(xiàn):語言模型具有“協(xié)作性”。具體來說,當(dāng)一個模型能夠參考其他模型的輸出時,即使這些輸出質(zhì)量較低,它也能生成更高質(zhì)量的回答。這一現(xiàn)象啟發(fā)了 Together AI 團隊,他們設(shè)計了一種分層架構(gòu),讓多個語言模型像團隊一樣協(xié)作,共同優(yōu)化最終輸出。
圖 1:MoA 結(jié)構(gòu)示意圖。圖中展示了 4 層 MoA 架構(gòu),每層包含 3 個代理(模型),每層代理參考前一層所有輸出進行優(yōu)化,最終生成高質(zhì)量回答。
MoA 的工作方式可以簡單比喻為一場接力賽。每個“選手”(即語言模型)在自己的“賽道”(MoA 層)上生成初步回答,這些回答隨后傳遞給下一層的模型進行優(yōu)化和整合。每層中的模型都會參考前一層所有模型的輸出,逐步提煉出更準確、更全面的回答。這種分層協(xié)作不僅充分利用了各模型的獨特優(yōu)勢,還通過多樣化的視角彌補了單個模型的局限性。
與傳統(tǒng)的單一模型或簡單集成方法不同,MoA 不需要對模型進行微調(diào),僅通過提示(prompting)接口即可實現(xiàn)協(xié)作。這意味著它可以輕松適配任何最新的語言模型,無論其規(guī);蚣軜(gòu)如何。這種靈活性與高效性讓 MoA 在實際應(yīng)用中具有巨大潛力。
圖2:用于集成來自上一層所有模型響應(yīng)的提示詞。翻譯:已經(jīng)為您提供了一組來自各種開源模型對最新用戶查詢的回答。你的任務(wù)是將這些回答綜合成一個單一的、高質(zhì)量的輸出。批判性地評估這些回答中提供的信息至關(guān)重要,認識到其中一些信息可能有偏見或不正確。你的回答不應(yīng)該簡單地重復(fù)已給出的答案,而應(yīng)該提供一個精煉、準確和全面的回答。確保你的回答結(jié)構(gòu)良好,連貫,并堅持最高的準確性和可靠性標(biāo)準。以下是來自不同模型的回答:...
MoA 的創(chuàng)新點不僅在于其架構(gòu)設(shè)計,還體現(xiàn)在對模型角色分工的深刻洞察。研究團隊將模型分為兩種角色:提議者(Proposers) 和 聚合者(Aggregators)。提議者擅長生成多樣化的初步回答,為后續(xù)優(yōu)化提供豐富素材;而聚合者則負責(zé)綜合這些回答,生成最終的高質(zhì)量輸出。通過對模型性能和多樣性的精心選擇,MoA 確保了協(xié)作過程的高效與穩(wěn)定。
此外,MoA 的設(shè)計靈感來源于機器學(xué)習(xí)中的 Mixture-of-Experts (MoE) 技術(shù),但它將這一概念擴展到了模型層面。傳統(tǒng)的 MoE 通過子網(wǎng)絡(luò)分工實現(xiàn)任務(wù)優(yōu)化,而 MoA 則利用完整語言模型的提示能力,無需修改內(nèi)部權(quán)重即可實現(xiàn)協(xié)作。這不僅降低了計算成本,還為未來的模型集成提供了無限可能。
實驗設(shè)計
為了驗證 MoA 的性能,研究團隊設(shè)計了一系列科學(xué)嚴謹?shù)膶嶒,涵蓋了多種基準測試和模型配置。以下從 LLM 的角色分功夫、實驗場景與數(shù)據(jù)集、評估方法等方面展開介紹。
LLM 角色分工
MoA 的實驗中,研究團隊精心挑選了 6 種開源模型來構(gòu)建一個 3 層 MoA——包括 Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1 和 dbrx-instruct——每個 MoA 層均使用相同的模型集。
這些模型在不同任務(wù)中各有專長,例如指令遵循、代碼生成等。實驗通過分析模型在提議者(proposer)和聚合者角色(aggregator)中的表現(xiàn),優(yōu)化了 MoA 架構(gòu)的配置。
例如,Qwen1.5-110B-Chat 在聚合任務(wù)中表現(xiàn)出色,能夠有效整合多種輸入生成高質(zhì)量輸出;而 WizardLM-8x22B 則在提議者角色中表現(xiàn)優(yōu)異,提供多樣化的參考回答。通過對模型性能和多樣性的綜合考量,團隊確保了 MoA 層中模型的協(xié)同效應(yīng)最大化。
實驗場景與數(shù)據(jù)集
實驗主要基于三個權(quán)威基準測試:AlpacaEval 2.0、MT-Bench 和 FLASK[1]。這些數(shù)據(jù)集覆蓋了廣泛的任務(wù)場景,能夠全面評估模型的語言生成能力。
AlpacaEval 2.0:包含 805 條真實用戶指令,代表了實際應(yīng)用場景。評估采用長度控制(LC)的勝率指標(biāo),通過 GPT-4 比較模型回答與 GPT-4(gpt-4-1106-preview)輸出的優(yōu)劣,確保公平性。MT-Bench:通過 GPT-4 對模型回答進行評分,評估多輪對話中的表現(xiàn),強調(diào)模型的上下文理解和持續(xù)對話能力。FLASK:提供 12 項技能特定的評分,涵蓋魯棒性、正確性、邏輯推理效率、事實性等維度,為模型性能提供細粒度分析。
此外,團隊還在 MATH 數(shù)據(jù)集 上測試了 MoA 的推理能力,驗證其在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。這些多樣化的測試場景確保了 MoA 性能評估的全面性和可靠性。
評估方法
MoA 的評估方法結(jié)合了自動評估和對比分析。核心指標(biāo)包括:
LC 勝率:在 AlpacaEval 2.0 中,通過 GPT-4 比較模型回答,計算模型優(yōu)于基準模型的概率,消除長度偏見。MT-Bench 評分:由 GPT-4 給出 0-10 分的評分,評估回答的整體質(zhì)量。FLASK 技能評分:對 12 項技能進行細粒度評分,分析模型在不同維度的表現(xiàn)。數(shù)學(xué)任務(wù)準確率:在 MATH 數(shù)據(jù)集上評估模型的推理正確率。
圖 3:AlpacaEval 2.0 LC 勝率提升。圖中展示了多個模型在參考其他模型輸出后的性能提升,證明了語言模型的協(xié)作性。
為了深入理解 Mixture-of-Agents (MoA) 的內(nèi)部機制,研究團隊開展了多項深入實驗。他們比較了 MoA 與 LLM 排序器(LLM-Ranker)的性能,證實 MoA 在綜合生成中的優(yōu)越性;通過 BLEU、TF-IDF 和 Levenshtein 相似度分析,揭示了聚合者如何智能整合提議者的輸出;此外,團隊還研究了模型多樣性和提議者數(shù)量對性能的影響,發(fā)現(xiàn)多模型協(xié)作顯著提升效果;通過分析模型在提議者和聚合者角色中的表現(xiàn),進一步明確了各模型的專長。這些實驗共同闡明了 MoA 高效協(xié)作的核心機理。
實驗結(jié)果:超越 GPT-4 Omni 的壯舉
MoA 的實驗結(jié)果令人振奮,尤其是在 AlpacaEval 2.0 上,MoA 展現(xiàn)了壓倒性的優(yōu)勢。以下是主要成果的詳細分析。
AlpacaEval 2.0:開源模型的逆襲
在 AlpacaEval 2.0 基準測試中,MoA 取得了 65.1% 的 LC 勝率,超越了 GPT-4 Omni 的 57.5% ,實現(xiàn)了 7.6% 的絕對提升。更令人驚嘆的是,這一成績完全由開源模型實現(xiàn),充分展示了 MoA 在整合開源模型能力方面的潛力。
團隊還測試了兩種變體:MoA w/ GPT-4o 和 MoA-Lite。MoA w/ GPT-4o 使用 GPT-4o 作為最終聚合者,LC 勝率達到 65.7% ,進一步提升了性能。而 MoA-Lite 則通過減少層數(shù)(2 層)和使用更輕量的 Qwen1.5-72B-Chat 作為聚合者,實現(xiàn)了 59.3% 的 LC 勝率,依然優(yōu)于 GPT-4 Omni,且成本更低。
圖 4:AlpacaEval 2.0和MT-Bench的結(jié)果(后者的滿分為10)。對于AlpacaEval 2.0, MoA和MoA- lite分別對應(yīng)3層和2層的6個提議者。MoA w/ gpt - 40對應(yīng)于使用gpt - 40作為MoA中的最終聚合器。研究進行了三次實驗,報告了平均分和標(biāo)準差。†表示這項研究對對AlpacaEval結(jié)果的復(fù)制。這項研究的研究者們自己跑了所有MT-Bench的分數(shù),得到了回合制分數(shù)。MT-Bench:微小但穩(wěn)定的領(lǐng)先
在 MT-Bench 上,MoA 的表現(xiàn)同樣出色,平均得分為 9.25,略高于 GPT-4 Omni 的 9.19(滿分為 10 分)。盡管改進幅度較小,這主要是因為 MT-Bench 的評分已接近飽和(頂級模型得分普遍超過 9 分)。然而,MoA 依然穩(wěn)居榜首,證明了其在高難度對話任務(wù)中的穩(wěn)定性。
FLASK:多維度的卓越表現(xiàn)
FLASK 的細粒度評估顯示,MoA 在魯棒性、正確性、邏輯推理效率、事實性、常識推理、洞察力、完整性等多個維度上顯著優(yōu)于單一模型 Qwen1.5-110B-Chat。此外,MoA 在正確性、事實性、洞察力、完整性和元認知等指標(biāo)上甚至超越了 GPT-4 Omni。唯一的不足是輸出的簡潔性略遜,這可能是由于多模型協(xié)作導(dǎo)致回答稍顯冗長。
圖 5:FLASK 評估結(jié)果。MoA 在多個技能維度上表現(xiàn)出色,尤其在正確性、事實性和洞察力等方面超越了 GPT-4 Omni。MATH 任務(wù):推理能力的飛躍
在 MATH 數(shù)據(jù)集上,MoA 的表現(xiàn)同樣令人印象深刻。以 Qwen1.5-110B-Chat 作為聚合者,MoA 在三層架構(gòu)中的準確率從第一層的 50.0% 提升到第三層的 57.6% ,顯示了分層協(xié)作在推理任務(wù)中的顯著效果。這一結(jié)果表明,MoA 不僅適用于語言生成,還能有效提升復(fù)雜推理能力。
圖 6:MATH任務(wù)的結(jié)果。研究者評估了不同的聚合器,在每個MoA層中,所有六個模型都作為提議者。成本與效率:Pareto 最優(yōu)的突破
MoA 的另一個亮點是其成本效益。實驗通過預(yù)算和算力(tflops)分析,繪制了性能與成本的帕累托前沿圖。結(jié)果顯示,MoA 和 MoA-Lite 位于帕累托前沿,意味著它們在相同性能水平下具有更低的成本。例如,MoA-Lite 的成本與 GPT-4 Omni 相當(dāng),但性能提升了 **1.8%**;而 MoA 則在更高性能水平下保持了競爭力,相比 GPT-4 Turbo 成本降低了一半以上。
圖 7:性能與成本的權(quán)衡。MoA 和 MoA-Lite 位于 Pareto 前沿,展現(xiàn)了高性能與低成本的完美平衡。為什么 MoA 如此強大?
MoA 的成功離不開其對協(xié)作機制的深刻洞察。實驗表明,MoA 的聚合者并非簡單選擇最佳提議者輸出,而是通過復(fù)雜的綜合過程,整合多種輸入的優(yōu)勢。例如,BLEU 相似度分析顯示,聚合者的輸出與高質(zhì)量提議者的輸出存在較高相關(guān)性,表明 MoA 能夠智能地“借鑒”最佳內(nèi)容。
此外,模型多樣性和數(shù)量對 MoA 的性能至關(guān)重要。實驗發(fā)現(xiàn),使用多個不同模型(多提議者設(shè)置)相比單一模型生成多份輸出(單提議者設(shè)置),性能顯著提升。例如,在 6 個提議者的配置中,多提議者設(shè)置的 LC 勝率達到 61.3% ,遠高于單提議者的 56.7% 。
未來展望與局限性
MoA 的出現(xiàn)為語言模型協(xié)作開辟了新的可能性。它不僅提升了生成質(zhì)量,還通過開源模型展示了低成本高性能的潛力。然而,MoA 的分層架構(gòu)可能導(dǎo)致較高的首次令牌時間(TTFT),影響實時應(yīng)用的用戶體驗。未來研究可以探索逐塊聚合(chunk-wise aggregation)等方法,優(yōu)化響應(yīng)速度。
此外,MoA 的可解釋性也是一大優(yōu)勢。由于中間輸出以自然語言形式呈現(xiàn),用戶可以更容易理解模型的推理過程。這為構(gòu)建更透明、更符合人類需求的 AI 系統(tǒng)提供了基礎(chǔ)。
結(jié)語:協(xié)作的未來已來
Mixture-of-Agents 技術(shù)的誕生標(biāo)志著語言模型從單打獨斗走向團隊協(xié)作的新時代。通過巧妙的分層架構(gòu)和角色分工,MoA 將多個模型的智慧融為一體,創(chuàng)造了超越單一模型的驚人性能。無論是 AlpacaEval 2.0 的霸榜表現(xiàn),還是在成本效益上的突破,MoA 都向我們展示了協(xié)作的力量。未來,隨著更多模型的加入和架構(gòu)的優(yōu)化,MoA 有望進一步釋放語言模型的潛能,為 AI 應(yīng)用帶來更多可能性。
想了解更多關(guān)于 MoA 的細節(jié)?歡迎查閱原文:Mixture-of-Agents Enhances Large Language Model Capabilities[2]。讓我們共同期待這場協(xié)作革命的下一幕!
參考資料[1]
FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS: https://arxiv.org/abs/2307.10928
[2]
Mixture-of-Agents Enhances Large Language Model Capabilities: https://arxiv.org/abs/2406.04692
-- 完 --
原文標(biāo)題 : 聊聊MoA(混合智能體架構(gòu)):如何激發(fā)LLM潛力并掀起語言模型協(xié)作革命?

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
3月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會
-
即日-5.15立即報名>>> 【在線會議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評>> 【評選】維科杯·OFweek2025中國工業(yè)自動化及數(shù)字化行業(yè)年度評選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 小米YU7新增835公里續(xù)航版,6-7月面市
- 3 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 4 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 5 昆侖萬維24年營收56億,AI出海商業(yè)化獲重要進展
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 大模型下半場:Agent時代為何更需要開源模型
- 8 中國“智造”背后的「關(guān)鍵力量」
- 9 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?
- 10 營收猛增46%,昆侖萬維成為AI“爆品工廠”