訂閱
糾錯(cuò)
加入自媒體

Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹:向量數(shù)據(jù)庫(kù)破研發(fā)瓶頸,AI賦能范本轉(zhuǎn)移|2025極新AIGC峰會(huì)演講實(shí)錄

2026-01-07 13:48
極新
關(guān)注

2025年12月26日,【想象·2025極新AIGC峰會(huì)】在上海浦東浦軟大廈成功召開。Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹先生在會(huì)上做了題為《向量數(shù)據(jù)庫(kù)對(duì)研發(fā)范本轉(zhuǎn)移的影響》的演講,從非結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)、大模型幻覺(jué)解決到向量技術(shù)應(yīng)用場(chǎng)景,深入解析了向量數(shù)據(jù)庫(kù)如何重構(gòu)AI研發(fā)的底層邏輯。

Zilliz出海業(yè)務(wù)負(fù)責(zé)人 喬丹

喬丹重點(diǎn)提到以下幾點(diǎn):

“AI業(yè)務(wù)中,非結(jié)構(gòu)化數(shù)據(jù)向量化,是目前最為常見且成熟的數(shù)據(jù)處理手段之一。”

“幻覺(jué)有多種表現(xiàn)形式,如在日常生活中我們能直觀感知到的,就是AI產(chǎn)出了錯(cuò)誤的答案。”

“萬(wàn)物皆可向量化,”

以下為喬丹演講原文,經(jīng)極新整理,希望能給大家?guī)?lái)收獲。

01數(shù)據(jù)治理挑戰(zhàn)

“非結(jié)構(gòu)化數(shù)據(jù)其實(shí)都是可以通過(guò)向量來(lái)進(jìn)行表征的”

首先我們?nèi)绻o它一個(gè)簡(jiǎn)單的定義,除了傳統(tǒng)標(biāo)量形式(比如一個(gè)字段一串字符)之外,視頻、音頻、圖片這類數(shù)據(jù),我們定義為非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)其實(shí)都可以通過(guò)向量來(lái)進(jìn)行表征。

我們?cè)囅耄刻旖邮盏母鞣N信息中,除了文字?jǐn)?shù)據(jù),很多都是通過(guò)視頻、音頻等形式獲取的。其實(shí)非結(jié)構(gòu)化數(shù)據(jù)在我們生活中的占比遠(yuǎn)比各位想象的要高,這張餅狀圖可以很好地揭示了我們?nèi)粘P畔⑹占械男畔⒄急,非結(jié)構(gòu)化數(shù)據(jù)顯然處在相對(duì)主導(dǎo)的位置。當(dāng)然在計(jì)算機(jī)領(lǐng)域,或者在數(shù)據(jù)治理領(lǐng)域,非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用其實(shí)還處于方興未艾的早期狀態(tài)。

我們的使命就是專注于解決非結(jié)構(gòu)化數(shù)據(jù)相關(guān)的問(wèn)題。這里我們做一個(gè)簡(jiǎn)單的數(shù)學(xué)理解,結(jié)合最早的解析幾何知識(shí),我們可以把生活中很多事物標(biāo)定為二維、三維乃至無(wú)數(shù)維坐標(biāo)系中的一個(gè)點(diǎn)。

現(xiàn)在以三維為例,比如有兩個(gè)單詞,“面包” 和“bread”。“面包”可在向量空間中用一組特征向量(如xyz123)表征,而在傳統(tǒng)關(guān)鍵詞搜索中,很難直接將“面包”與“bread”匹配——傳統(tǒng)搜索僅能匹配“面”“包”這類字面重合的關(guān)鍵詞,無(wú)法感知二者的語(yǔ)義關(guān)聯(lián)。但如果把它們映射到幾何框架中,“面包”是 123,“bread”是124,在向量空間中,我們可以計(jì)算它們之間的相對(duì)幾何關(guān)系和距離,進(jìn)而得到二者的相關(guān)性。

這就是為什么我們可以用一種簡(jiǎn)單的幾何方法,將以前無(wú)法匹配和關(guān)聯(lián)的非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)起來(lái)。當(dāng)然這只是一個(gè)簡(jiǎn)單例證,如果我們能把這些維度進(jìn)行百倍、千倍甚至萬(wàn)倍的拓展,一串幾何字符所能囊括的信息會(huì)遠(yuǎn)超我們的想象。

02模型可靠性危機(jī)

“幻覺(jué)有多種表現(xiàn)形式,在日常生活中我們能直觀感知到的,就是它產(chǎn)出了錯(cuò)誤的答案”

某知名廠商的大模型,之前的能力可以通過(guò)一個(gè)問(wèn)題來(lái)驗(yàn)證:?jiǎn)卧~school books有幾個(gè)o?這是個(gè)很簡(jiǎn)單的問(wèn)題,但之前一些版本的大模型給出的回答是有兩個(gè),這顯然和人眼觀察的實(shí)際情況不符,正確答案應(yīng)該是有4個(gè)o。

這種情況不只是國(guó)內(nèi)存在,海外也一樣。還會(huì)自作聰明地補(bǔ)充了這些字母分別出現(xiàn)在哪些位置,但它給出的位置也是錯(cuò)誤的佐證。

不過(guò)如果追加提問(wèn)進(jìn)行糾正,模型有時(shí)候是能夠反省的。在糾正之下,模型會(huì)再進(jìn)行一次計(jì)算,最終得出正確的答案。

這種現(xiàn)象叫什么?有個(gè)很專業(yè)的名詞,叫Hallucination,也就是幻覺(jué)。這其實(shí)是個(gè)非常哲學(xué)化的概念,當(dāng)我們把大模型當(dāng)作一個(gè)交流對(duì)象時(shí),它給出的那些并非是基于事實(shí)的回答,而是幻覺(jué)。

幻覺(jué)可以有很多種表現(xiàn)形式,但在日常生活中我們能直觀感知到的,就是它產(chǎn)出了錯(cuò)誤的答案。這些其實(shí)都是很小的問(wèn)題,但試想如果使用者是一名學(xué)者,正在進(jìn)行嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)研究,2023年我們用舊版本模型做了一次簡(jiǎn)單測(cè)試,沒(méi)有任何上下文,直接提問(wèn):上海市 GDP 排名前三的是哪個(gè)區(qū)? 模型給出的答案是浦東新區(qū)、武漢新區(qū)、楊浦區(qū)。先不管浦東新區(qū)和楊浦區(qū)是不是前三,我們能確定的是,武漢新區(qū)根本不屬于上海,這顯然也是出現(xiàn)了幻覺(jué)。

但此時(shí)我們?cè)撊绾慰朔@種現(xiàn)象?其實(shí)這就涉及到技術(shù)領(lǐng)域老生常談的方法“檢索增強(qiáng)生成”,也就是我們俗稱的 RAG。簡(jiǎn)而言之,我們會(huì)在操作中針對(duì)性彌補(bǔ)這一弊端,方法很簡(jiǎn)單:在提出問(wèn)題的同時(shí),人為插入一個(gè)知識(shí)庫(kù),為大模型提供對(duì)應(yīng)數(shù)據(jù)(比如上海下屬各區(qū)的實(shí)際 GDP 數(shù)據(jù)),隨之而來(lái)大模型給出的回答就是正確的。這就是一個(gè)非常簡(jiǎn)單的RAG雛形,能幫助大家在使用大模型處理文檔或生活中的問(wèn)題時(shí),既利用它的優(yōu)勢(shì),又避免它對(duì)真實(shí)信息的干擾。

但同時(shí),有些場(chǎng)景下并不會(huì)這么順利,因?yàn)槲覀兛赡軟](méi)有現(xiàn)成的知識(shí)庫(kù),這時(shí)候該怎么做?答案也很簡(jiǎn)單:需要在給大模型的提示詞(prompt)中加上“如果沒(méi)有答案就不要瞎編”的要求。當(dāng)大模型接收到這個(gè)信息后,比如面對(duì)“上海市 GDP 排名第三的區(qū)是哪個(gè)”這類問(wèn)題,若現(xiàn)有知識(shí)庫(kù)信息無(wú)法判斷,它就會(huì)如實(shí)回應(yīng),還會(huì)給出一些相關(guān)性解釋,總而言之,它最終不會(huì)給出誤導(dǎo)性的結(jié)論式表達(dá),避免對(duì)實(shí)際生活中的操作產(chǎn)生重大偏差影響。

如果不想糾結(jié)復(fù)雜的 IT 概念,可以簡(jiǎn)單理解:當(dāng)我們把這類優(yōu)化措施封裝在后臺(tái),以及封裝在用戶端或業(yè)務(wù)端的各個(gè)交互環(huán)節(jié)時(shí),就產(chǎn)生了各種各樣的 RAG 演化和變種,這也是我們現(xiàn)在強(qiáng)調(diào)的 AI 在終端或業(yè)務(wù)端創(chuàng)新的重要方面。

03技術(shù)應(yīng)用瓶頸

“萬(wàn)物皆可向量化”

2022 年的時(shí)候,還有很多人把大量的經(jīng)濟(jì)成本以及團(tuán)隊(duì)精力投入到發(fā)掘創(chuàng)意上面,但顯然模型的增長(zhǎng)能力對(duì)我們而言是比較有挑戰(zhàn)性的。而 RAG 能讓我們以一種相對(duì)輕度、便捷的方式,解決很多切實(shí)的業(yè)務(wù)問(wèn)題。

那么在這個(gè)環(huán)境中,向量數(shù)據(jù)庫(kù)起到什么作用?可以理解為,在與大模型的溝通當(dāng)中,所有語(yǔ)言內(nèi)容的底層其實(shí)都不是一串規(guī)則化的標(biāo)量,而是語(yǔ)義化的向量,語(yǔ)義即向量。所以當(dāng)你要大規(guī)模地為大模型插入知識(shí)庫(kù)時(shí),其底層依托的其實(shí)就是向量數(shù)據(jù)庫(kù)。

由此我們可以產(chǎn)生一個(gè)應(yīng)用場(chǎng)景遷移的思考:向量數(shù)據(jù)庫(kù)會(huì)在哪些方面起到作用?橫向上,在搜索、推薦系統(tǒng)、大模型、風(fēng)控等場(chǎng)景都能發(fā)揮作用,橫軸可以無(wú)限延伸;縱向上則對(duì)應(yīng)非結(jié)構(gòu)化數(shù)據(jù)類型,這類數(shù)據(jù)其實(shí)都可以被向量化。兩者交叉會(huì)產(chǎn)生無(wú)數(shù)的應(yīng)用場(chǎng)景賦能。

這些能力其實(shí)都是日?梢杂玫降。比如大家在A電商平臺(tái)進(jìn)行購(gòu)物,你覺(jué)得某樣?xùn)|西特別貴,去 B 電商平臺(tái)拍張照搜索,會(huì)發(fā)現(xiàn)同款商品價(jià)格比其他地方便宜90%。這是怎么實(shí)現(xiàn)的?其實(shí)就是把兩張圖片的向量特征提取出來(lái),再進(jìn)行比對(duì),計(jì)算它們?cè)谧鴺?biāo)系里的某種算法下的最合適的近鄰關(guān)系,我們就找到了最具性價(jià)比的商品。

這是商業(yè)場(chǎng)景的應(yīng)用,剛才也提到了分子藥研發(fā),我們可以把分子結(jié)構(gòu)進(jìn)行向量化。我們服務(wù)的客戶里也有材料類型的企業(yè),甚至在自動(dòng)駕駛領(lǐng)域,隨著越來(lái)越多的多模態(tài)方案出現(xiàn),相關(guān)技術(shù)如何辨別不同數(shù)據(jù)之間的差異,都可以借助向量數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。

       原文標(biāo)題 : Zilliz出海業(yè)務(wù)負(fù)責(zé)人喬丹:向量數(shù)據(jù)庫(kù)破研發(fā)瓶頸,AI賦能范本轉(zhuǎn)移|2025極新AIGC峰會(huì)演講實(shí)錄

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)