123,123,123

AI時代，蝴蝶和海嘯之間只隔一個錯誤

2025-12-31 17:19

長三角momo

關(guān)注

長三角MOMO

如果一篇論文錯信了“AI幻覺”，會造成多米諾骨牌效應，引發(fā)一連串的數(shù)據(jù)錯誤復發(fā)，怎么破？用魔法打敗魔法，還是要靠AI工具。

開頭講兩個故事。

第一個故事，關(guān)于普遍性。

現(xiàn)在的學生和老師，都在普遍地使用AI。前幾天去親戚家串門，他正在教育他閨女不要用AI寫作文了，一定要自己寫。結(jié)果她閨女特別委屈地方告訴他：這是老師讓的，老師說寫完之后，要傳給AI，讓AI給出修改意見。

前段時間，我去參加了一個大學教授和我們這些民間自媒體從業(yè)者的論壇，我特意問了關(guān)于使用AI的問題，答案是老師們也在普遍用AI做課件。

第二個故事，關(guān)于準確性。

前段時間，良渚的自來水事件，鬧得沸沸揚揚，但是突然有個信息沖了出來，說農(nóng)夫山泉在良渚有工廠，一時間快速發(fā)酵，幸虧事件查的及時，發(fā)這個微博的博主很快刪除了信息，并且道了歉，說是AI上查到的信息，搞錯了。一句搞錯，差點給企業(yè)釀成大禍。

很顯然，AI在過去的兩年中，已經(jīng)證明了自己能夠給出比傳統(tǒng)搜索更優(yōu)質(zhì)答案的能力，人們也更愿意毫無底線地相信AI的答案，這種相信，在教授、媒體、教師、學術(shù)界、科學界、行政公務中都普遍存在，但是我們有沒有想過一個問題，如果AI在這些嚴肅學科領(lǐng)域，犯了良渚農(nóng)夫山泉那個錯，帶來的后果會是什么？

我覺得就是蝴蝶效應。

一個媒體報道，或者一篇論文，用錯一個數(shù)據(jù)之后，會引發(fā)一連串的數(shù)據(jù)錯誤復發(fā)，最終徹底讓AI陷入一種認知錯誤，誤導后面所有的人，這是一個多米諾的關(guān)系。

百度文心，最近弄了一個“放心寫”功能，大大提高了媒體和教育行業(yè)的AI使用確定性，我實話實說，之前為了確保數(shù)據(jù)不出錯，我還是會對比幾個AI一起交叉驗證，然后再配合權(quán)威媒體的報道，確保自己不出錯，現(xiàn)在有了這個功能，直接把寫好的文章，傳給文心，有什么問題直接就會給我標注出來，我在線就可以修改，二次再審。

這等于給每個寫作者，加了一道風控，有沒有數(shù)據(jù)錯誤，有沒有政策解讀錯誤，有沒有論點論據(jù)錯誤，我在內(nèi)部開玩笑，我們行業(yè)的校對可以徹底下崗了，的確，我們公司的校對下崗很久了。

為什么學術(shù)界、媒體界是AI最應該關(guān)注的對象？因為AI的很多數(shù)據(jù)來源要取自這里，如果這里出錯，會交叉污染數(shù)據(jù)，所以百度文心現(xiàn)在用“放心寫”，堵住這個交叉污染的可能性，是抵制AI幻覺的一個非常有效的手段。

我也試用了一下，拿“最近汽車行業(yè)監(jiān)管政策解讀”這個問題生成了一篇文章，具體細節(jié)和最終成果我就不展開說了，只說結(jié)論：質(zhì)量很可用，以對話助手的方式，達到了我以前用某些大模型的智能體的水平。

這個檢驗過程有意思，提示未通過部分，我專門查了一下，為什么AI判定「歐盟《新電池法》要求2027年動力電池回收利用率達到95%」不通過？原來法案是針對不同材料的，確實不能一概而論，很嚴謹。

再次重寫后通過，下載分享也很絲滑。

還有一點要提示，記住要把左下角的“事實校對”打開。

近期還看到一條訊息，LMArena大模型競技場新發(fā)布了最新排名，文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜，排名中國第一，特別是在創(chuàng)意寫作等方面表現(xiàn)突出。

值得點贊，不管從模型上還是應用上，文心在中文寫作方面都很強勁，目前在文心APP最新版本可以體驗最新的模型能力了。我了解到，放心寫中文寫作準確率已經(jīng)超過了99%，幻覺率大大降低。

總之，我覺得未來如果要確保AI不產(chǎn)生過多幻覺，“放心寫”還真是一條可行之路。

首先，數(shù)據(jù)庫如何建立？

既然是一個幫助用戶避免AI幻覺的寫作工具，那就是要有一個屬于自己的細分數(shù)據(jù)庫，這個數(shù)據(jù)庫不是開放式的，“放心寫”采用的數(shù)據(jù)庫都是權(quán)威可信機構(gòu)媒體和政府官網(wǎng)，并沒有從海量的互聯(lián)網(wǎng)數(shù)據(jù)中去辨別，幻覺往往是因為錯誤信息權(quán)重大于正確信息之后，產(chǎn)生的結(jié)果。而且這種干擾，目前來看，是完全可實行的。

所以，用來二次辨別的工具，數(shù)據(jù)庫一定不是開放式全網(wǎng)數(shù)據(jù)。

其次，在小細分領(lǐng)域循環(huán)。

現(xiàn)在，文心“放心寫”對于公文、教育課件、行業(yè)報告、會議紀要等領(lǐng)域，已經(jīng)有強大的復盤能力，但是這種能力有個特性，就是服務辦公室工作比較多，并不是偏向娛樂和個人化需求，基本都是嚴肅話題，在這種特定場景中，數(shù)據(jù)就更容易保持干凈，這種干凈就可以傳染給外面的大數(shù)據(jù)庫。

第三，能夠幫助新手快速上手工作。

其實，對于很多辦公室新人，甚至新教師來說，如何規(guī)范自己的行文，規(guī)范自己的課件，是一件非常頭疼的事，因為這些東西，往往都有固定的格式，其實不需要太多個性化的東西，但是這個格式需要經(jīng)驗，文心“放心寫”除了可以檢測錯誤之外，也可以幫你根據(jù)你提供的參考文檔調(diào)整格式。

在過去的一年時間里，AI在很多公司，有了一個新名字，背鍋俠。

以前，公司里的人們辦公過程中出了錯，會把鍋甩給供應商，說是供應商的錯，但是現(xiàn)在大家發(fā)現(xiàn)，AI也可以承接這種錯誤，這從側(cè)面也說明了一個問題，AI幻覺的確普遍性存在，是一個現(xiàn)實問題。

無數(shù)的專家在擔憂，我們社會未來的信息安全問題，人類在未來，到底還能不能真的分辨出哪些信息是真實的，哪些是AI杜撰出來的，今年良品鋪子的花生酥，被AI做出了一張花生長在樹上的圖，成了鬧劇，事實上，這種事情，以后這會越來越多。

百度這次做“放心寫”，算是從反方向做了一次嘗試，AI不僅僅可以是數(shù)據(jù)信息的提供者，也可以是數(shù)據(jù)信息的糾正者，幻覺可能是AI創(chuàng)造出來的，也可以是AI糾正的。

時間來到了2026年，AI的競爭很顯然會陷入一種白熱化，功能上的差異越來越小，那么下半場大家比什么？如果一個問題，所有AI給出的答案都大差不差，那么用誰都一樣。那么如果一個問題，有一個AI能夠給出不一樣的答案，并且能夠做到錯誤率很低，或者不出錯，這就是勝算。

確保自己和物理世界的強關(guān)聯(lián)，不出現(xiàn)幻覺，對自己的交付負責，這就是我心中AI后面的取勝法寶。

AI，在2026年，不能變成人們犯錯的背鍋俠，而應該是糾錯俠。

原文標題 : AI時代，蝴蝶和海嘯之間只隔一個錯誤