訂閱
糾錯(cuò)
加入自媒體

國(guó)產(chǎn)大模型同日轉(zhuǎn)向:DeepSeek向左,Kimi向右,拼落地的時(shí)代開(kāi)始了?

2026-01-29 10:13
雷科技
關(guān)注

會(huì)掀起新一輪的 AI 大升級(jí)嗎?

聚焦DeepSeek專(zhuān)題banner(補(bǔ)充標(biāo)題).jpg

1 月 27 日,兩家最受關(guān)注的國(guó)內(nèi)大模型初創(chuàng)公司,幾乎同時(shí)放出了各自最新、也是分量最重的一次開(kāi)源更新:

DeepSeek 發(fā)布并開(kāi)源了 DeepSeek-OCR 2,這是其在去年震動(dòng)行業(yè)的 DeepSeek-OCR 基礎(chǔ)上的一次關(guān)鍵升級(jí);Kimi 同樣發(fā)布并開(kāi)源了 K2.5,繼續(xù)推進(jìn)其超長(zhǎng)上下文、多模態(tài)與「智能體化」路線。

表面看,這是兩次方向不同的模型迭代。

DeepSeek-OCR 2 重新回答「模型究竟該如何『讀』信息」,通過(guò)新的視覺(jué)編碼機(jī)制,讓大模型學(xué)習(xí)人類(lèi)的視覺(jué)邏輯,把原本昂貴、冗長(zhǎng)的文本輸入壓縮為更高密度的「視覺(jué)語(yǔ)義」。

簡(jiǎn)單來(lái)說(shuō),它試圖改變 AI「讀文檔」的方式,讓模型不用再把一整本文件拆成成千上萬(wàn)個(gè)字「硬讀」,而是像人一樣先看版面、抓重點(diǎn),再理解含義。這意味著,將來(lái)讓 AI 幫你讀長(zhǎng)文檔、查資料、扒表格,可能會(huì)更快、更便宜,也更靠譜。

截屏2026-01-28 18.30.40.png

圖片來(lái)源:DeepSeek

Kimi K2.5 則走向另一個(gè)方向:不只回答問(wèn)題,而是把 AI 往「能干活」的方向再推一步。更長(zhǎng)的記憶、更強(qiáng)的多模態(tài)理解,再加上對(duì)復(fù)雜任務(wù)的拆解和執(zhí)行能力,指向的是一種更接近「數(shù)字助理」的體驗(yàn),而不是一個(gè)只會(huì)對(duì)話(huà)的聊天窗口。

Kimi 就宣稱(chēng)其為迄今最智能、最全能的模型,同時(shí)支持視覺(jué)與文本輸入、思考與非思考模式、對(duì)話(huà)與 Agent 任務(wù)。

一個(gè)聚焦語(yǔ)言模型輸入效率的變革,一個(gè)聚焦通用智能與復(fù)雜任務(wù)協(xié)作能力。但放在同一時(shí)間點(diǎn),它們共同指向了一個(gè)更重要的問(wèn)題:大模型的能力升級(jí),正在從「參數(shù)和對(duì)話(huà)能力」,轉(zhuǎn)向更底層、更工程化的能力重構(gòu)。

AI 正在升級(jí)的,已經(jīng)不只是更聰明的大腦。

從輸入到干活的進(jìn)化,國(guó)產(chǎn) AI 的兩條升級(jí)路線

去年發(fā)布的 DeepSeek-OCR,第一次讓行業(yè)意識(shí)到,大模型基于單詞和 Token 逐個(gè)輸入的方式本身可以被重做。到了最新發(fā)布的 DeepSeek-OCR 2,更是解決了一個(gè)更具體、也更困難的問(wèn)題:模型到底該怎么「讀」一份復(fù)雜文檔。

過(guò)去,AI 處理文檔的方式非常機(jī)械。無(wú)論是 PDF、合同還是財(cái)報(bào),本質(zhì)上都是先被拆成一段段文字,再按順序塞進(jìn)模型里。這種方式的問(wèn)題很明顯:

一方面,長(zhǎng)文檔會(huì)迅速消耗上下文窗口,成本高、效率低;另一方面,表格、多欄排版、注釋和正文之間的關(guān)系,經(jīng)常在「拆字」的過(guò)程中被破壞。

DeepSeek 在 OCR-2 中給出的答案,是進(jìn)一步強(qiáng)化其「視覺(jué)編碼」思路,不再把文檔當(dāng)作一串文字,而是當(dāng)作一個(gè)需要被「閱讀」的視覺(jué)對(duì)象。

相比一代,OCR 2 的關(guān)鍵變化不只是壓縮率,而是引入了更接近人類(lèi)閱讀習(xí)慣的邏輯,從上一代的 CLIP(切片)架構(gòu)轉(zhuǎn)向以 Qwen2 為基礎(chǔ)的 LM(語(yǔ)言模型)視覺(jué)編碼器。模型不再是同時(shí)、平均地處理整頁(yè)內(nèi)容,而是學(xué)會(huì)區(qū)分結(jié)構(gòu):

哪里是標(biāo)題,哪里是表格,哪些信息彼此相關(guān),哪些需要先讀、哪些可以后看。

截屏2026-01-28 18.41.24.png

運(yùn)作示意圖,圖片來(lái)源:DeepSeek

換句話(huà)說(shuō),它開(kāi)始理解「版面本身就是信息的一部分」。

這種變化帶來(lái)的直接價(jià)值,并不體現(xiàn)在「模型更聰明」這樣的抽象評(píng)價(jià)上,而是體現(xiàn)在一系列非常具體的體驗(yàn)提升上。比如,當(dāng)你讓 AI 幫你快速看完一份幾十頁(yè)的報(bào)告時(shí),它不再需要把每一個(gè)字都讀完,才能給出結(jié)論;在處理復(fù)雜表格時(shí),也不再頻繁出現(xiàn)列錯(cuò)位、字段錯(cuò)配的問(wèn)題。

更重要的是,由于輸入被高度壓縮,同樣的任務(wù)可以用更低的成本、更短的時(shí)間完成。這也是為什么 DeepSeek-OCR 2 對(duì)真正的 AI 應(yīng)用來(lái)說(shuō)意義更大,它有潛力讓 AI 更適合被放進(jìn)真實(shí)的文檔流程里,無(wú)論是檢索、比對(duì)、摘要,還是結(jié)構(gòu)化信息抽取。

在這個(gè)意義上,OCR 2 解決的不是一個(gè)模型能力問(wèn)題,而是一個(gè)長(zhǎng)期存在的「用起來(lái)不順」的問(wèn)題。

而相比 DeepSeek-OCR 2 把 AI 的「輸入端」重做了一遍,Kimi K2.5 關(guān)注的,則是 AI 代理完成復(fù)雜任務(wù)的能力。

事實(shí)上,今天問(wèn)題問(wèn)得再?gòu)?fù)雜,AI 也能回答;可一旦涉及多步驟、多材料、需要反復(fù)引用上下文的任務(wù),模型就很容易「忘前忘后」,或者停留在建議層面。AI 的能力已經(jīng)相當(dāng)成熟,不過(guò)很多用戶(hù)還都是類(lèi)似的體驗(yàn)。

Kimi 在 K2.5 中,繼續(xù)把重心放在「長(zhǎng)記憶 + 多模態(tài) + 智能體」這條路線上,本質(zhì)上是在嘗試讓 AI 從「答題模式」,走向「執(zhí)行模式」。

一方面,超長(zhǎng)上下文讓模型可以在更長(zhǎng)時(shí)間內(nèi)記住對(duì)話(huà)、資料和中間結(jié)論,減少反復(fù)解釋的成本;另一方面,多模態(tài)能力讓 AI 不只處理文字,還能理解圖片、界面截圖甚至更復(fù)雜的輸入形式。

更關(guān)鍵的,是對(duì)「智能體」能力的持續(xù)強(qiáng)化。Kimi 不再只是回答你「應(yīng)該怎么做」,而是嘗試把任務(wù)拆解成多個(gè)步驟,并且實(shí)現(xiàn)了「Agent 集群」,能在不同階段調(diào)用不同能力,最終給出一個(gè)相對(duì)完整的結(jié)果。這種能力,決定了 AI 能否真正進(jìn)入工作流,而不是只停留在咨詢(xún)助手的位置。

這也是 Kimi K2.5 強(qiáng)調(diào)自己「更全能」的原因所在。它追求的,并不是某一個(gè)能力點(diǎn)的極限,而是能否承接更長(zhǎng)、更復(fù)雜、更接近真實(shí)工作的任務(wù)鏈條。

大模型這一輪,開(kāi)始卷「能不能真的用起來(lái)」

從 DeepSeek-OCR 2 和 Kimi K2.5 往外看,會(huì)發(fā)現(xiàn)最近半年的一批主流大模型,升級(jí)方向其實(shí)異常一致。無(wú)論是 OpenAI 的 GPT-5.2、Anthropic 的 Claude 4.5,還是 Google 的 Gemini 3,再到字節(jié)跳動(dòng)的豆包 1.8、阿里巴巴的千問(wèn) Qwen3-Max-Thinking,它們不約而同地把重心從「模型有多強(qiáng)」,挪到了一個(gè)更現(xiàn)實(shí)的問(wèn)題上:

讓 AI 更深一步進(jìn)入真實(shí)的工作環(huán)境。

這也是為什么,這一輪升級(jí)很少再?gòu)?qiáng)調(diào)參數(shù)規(guī)模和單點(diǎn)能力,而是反復(fù)圍繞幾件事打磨:記得住、看得懂、接得住流程、干得完事情。

首先被集體拉高的,是「記憶」這件事。

過(guò)去,大模型更像是短期對(duì)話(huà)高手,擅長(zhǎng)當(dāng)下回答,卻很難長(zhǎng)期協(xié)作。一旦任務(wù)變長(zhǎng)、材料變多,就需要用戶(hù)不斷重復(fù)背景。最近這一批模型的升級(jí),幾乎都在解決這個(gè)痛點(diǎn):更長(zhǎng)的上下文、更穩(wěn)定的狀態(tài)保持,讓模型能夠跟著任務(wù)一路往前走,而不是走兩步就「失憶」。

GPT-5.2 把長(zhǎng)上下文和不同推理模式直接產(chǎn)品化,Kimi K2.5 則把超長(zhǎng)上下文嵌進(jìn)智能體流程,讓模型在多步驟執(zhí)行中記住中間結(jié)果。這些變化都在讓 AI 不再只是回答一個(gè)問(wèn)題,而是有能力幫用戶(hù)做好一件事。

其次,是對(duì)「看」這件事的重新理解。

如果說(shuō)過(guò)去的多模態(tài)更多是「能識(shí)圖」,那么現(xiàn)在的升級(jí)重點(diǎn),是「能不能看懂」。DeepSeek-OCR 2 代表的,是一種更激進(jìn)也更務(wù)實(shí)的方向:不再把視覺(jué)當(dāng)成文字的前置步驟,而是直接把視覺(jué)當(dāng)作信息本身,讓模型像人一樣先理解結(jié)構(gòu)、版面和關(guān)系,再進(jìn)入語(yǔ)義層。

這種變化并不只發(fā)生在文檔場(chǎng)景。無(wú)論是 GPT、Claude 還是 Gemini,都在強(qiáng)化對(duì)截圖、界面、復(fù)雜圖像的理解能力。

20251124-Gemini3-cover.jpg

圖片來(lái)源:Gemini

現(xiàn)實(shí)世界的信息,本來(lái)就不是一行一行排好的文本。當(dāng)模型開(kāi)始真正理解「圖像里信息是怎么組織的」,AI 才可能更自然地嵌入真實(shí)環(huán)境,而不是只活在純文本的對(duì)話(huà)框里。

再往下,是這一輪升級(jí)里最容易被忽視、卻最關(guān)鍵的變化:AI 的角色轉(zhuǎn)移。

過(guò)去,大模型更像是「顧問(wèn)」,給建議、給答案,但不負(fù)責(zé)結(jié)果。而現(xiàn)在,越來(lái)越多模型開(kāi)始被設(shè)計(jì)成「執(zhí)行者」。Kimi K2.5 強(qiáng)調(diào)智能體,本質(zhì)上是在讓模型學(xué)會(huì)拆任務(wù)、接工具、跑流程;GPT-5.2 把不同推理模式與工具調(diào)用結(jié)合,也是在降低「從建議到執(zhí)行」的斷層。

當(dāng) AI 開(kāi)始接手的是一整段流程,而不是某一個(gè)問(wèn)題,對(duì)它的價(jià)值判斷標(biāo)準(zhǔn)也隨之改變,關(guān)鍵在于「說(shuō)得對(duì)不對(duì)」,而在于能不能跑完、穩(wěn)不穩(wěn)。這也是為什么,這一輪升級(jí)中,「工程化」的重要性被反復(fù)提到。

國(guó)內(nèi) AI 在這一點(diǎn)上動(dòng)作尤為明顯。DeepSeek、Kimi、千問(wèn)、豆包,都在強(qiáng)調(diào)模型是否好部署、是否好接入現(xiàn)有系統(tǒng)、是否能跑在真實(shí)業(yè)務(wù)里。另一方面,國(guó)內(nèi)外 AI 過(guò)去一年都在強(qiáng)調(diào)通過(guò)更強(qiáng)的產(chǎn)品封裝,把復(fù)雜能力隱藏在界面和服務(wù)之下。實(shí)際上目標(biāo)一致,都是讓 AI 不再停留在「演示」,而是「可用」「好用」。

寫(xiě)在最后

沒(méi)有哪個(gè)模型做到了「通用智能(AGI)」,但把時(shí)間線再拉長(zhǎng)一點(diǎn)看,更多變化發(fā)生在不那么「奪目」的地方:輸入方式被重新設(shè)計(jì),任務(wù)開(kāi)始被拆解和接管,模型被要求在更長(zhǎng)時(shí)間、更復(fù)雜流程中保持穩(wěn)定。

當(dāng)模型開(kāi)始被認(rèn)真地放進(jìn)真實(shí)的日常生活和工作環(huán)境中,被反復(fù)驗(yàn)證、反復(fù)調(diào)用,它的價(jià)值衡量標(biāo)準(zhǔn)也隨之改變。不再是誰(shuí)的參數(shù)更大、回答更驚艷,而是誰(shuí)更省成本、更少出錯(cuò)、更值得長(zhǎng)期依賴(lài)。

從這個(gè)角度看,DeepSeek-OCR 2 和 Kimi K2.5 的意義,并不只在于它們各自解決了什么問(wèn)題,而在于它們代表了一種更現(xiàn)實(shí)的共識(shí):AI 邁入真實(shí)世界的下一步,必須邁出問(wèn)答。

聚焦DeepSeek專(zhuān)題banner(補(bǔ)充標(biāo)題)(1) (3).png

DeepSeekKimiAI智能體

來(lái)源:雷科技

本文圖片來(lái)自:123RF 正版圖庫(kù)       

       原文標(biāo)題 : 國(guó)產(chǎn)大模型同日轉(zhuǎn)向:DeepSeek向左,Kimi向右,拼落地的時(shí)代開(kāi)始了?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)