訂閱
糾錯
加入自媒體

“人機自然交互技術(shù)”的趨勢與挑戰(zhàn)

2019-06-14 01:38
AI銳見
關(guān)注

即便如此,第一個問題我們還要闡述清晰,因為這不僅有市場趨勢問題,還有商業(yè)路徑問題。我們首先看下面一張圖片,我們知道全球最大的圖書館是美國國會圖書館,大概有3000多萬本藏書,若每本書按照100萬字來統(tǒng)計,總共也就30TB左右的數(shù)字容量,實際上人類每年產(chǎn)生的文字資料總共也就160TB。相比之下,僅Facebook一家產(chǎn)生的數(shù)據(jù)就有300 x 365 TB,全球的數(shù)據(jù)可能超過了2000PB,而且這個總量還在快速增加。那么面對這些海量的數(shù)據(jù),我們?nèi)祟愒趺床拍塬@取知識?我們一生也不可能讀完美國國會圖書館的藏書,就更沒有可能遍歷當(dāng)今的機器數(shù)據(jù)。當(dāng)然我們知道這其中很多都是重復(fù)數(shù)據(jù),但是篩選重復(fù)信息本身也是人類學(xué)習(xí)的過程。顯然,我們?nèi)祟悷o法記住1億人的面孔,也無法辨識1億人的聲音。人類知識和機器知識實際上已經(jīng)開始各成體系,機器顯然具有比人類更強的知識去重、篩選、復(fù)制和迭代的能力,而我們?nèi)祟愔R想要獲得更快的發(fā)展,也必須依賴機器知識的支撐,這就必須要解決人類知識和機器知識的交互相通問題,怎么才能簡單的把機器所理解的知識復(fù)制粘貼到人類世界?以前文本時代我們有搜索引擎,那以語音圖像為主的人工智能時代呢?所以,我們必須要有人機自然交互系統(tǒng),只有這樣才能高效的獲取更有價值的機器知識,才能解決未來數(shù)據(jù)爆炸時代的知識獲取問題。至于商業(yè)化路徑,其實搜索引擎已經(jīng)做了很好的示范,人機交互系統(tǒng)肯定會催生更多的商業(yè)變現(xiàn)路徑。

“人機自然交互技術(shù)”的趨勢與挑戰(zhàn)

至于第二點對于巨頭加入競爭的擔(dān)憂,其實任何一個賽道只要未來市場空間足夠大,就必然會產(chǎn)生這種結(jié)果。巨頭為了支撐不斷攀升的市值,就必須布局未來天花板足夠高的產(chǎn)業(yè),即便這個產(chǎn)業(yè)的商業(yè)模式當(dāng)前還比較模糊,除非這個行業(yè)沒有足夠的商業(yè)空間或者戰(zhàn)略價值。我們一定要相信這個世界的聰明人很多,即便倒下了很多巨頭,也從來沒有哪個巨頭純粹是因為戰(zhàn)略方向問題倒下的,更多的原因反而是巨頭在執(zhí)行方面出現(xiàn)了巨大的問題,戰(zhàn)略其實也是一個執(zhí)行問題。

但是我們也要承認(rèn)語音行業(yè)的不足,語音行業(yè)還比較缺乏對于商業(yè)落地的認(rèn)知,若比較圖像、語音和自動駕駛這三個賽道,語音特別喜歡使用晦澀的術(shù)語比如自動語音識別、自然語言理解等等來給技術(shù)貼標(biāo)簽,而不像人臉識別、車牌識別、自動駕駛這樣直接對應(yīng)場景應(yīng)用。而更為麻煩的是,晦澀的術(shù)語不僅增加了商務(wù)對于場景的解釋難度,也拔高了客戶對于技術(shù)的應(yīng)用預(yù)期。這其實都非常不利于新技術(shù)在商業(yè)的規(guī)模化應(yīng)用。

舉個例子,“人機自然交互技術(shù)”就倒霉在這個術(shù)語上,這估計是人類追求的終極夢想,可以作為學(xué)術(shù)術(shù)語,但是落地到產(chǎn)業(yè)這個名詞就過于抬高預(yù)期,非常不友好。坦誠的來說,我們現(xiàn)在能做好人機任務(wù)對話特別是遠(yuǎn)場系統(tǒng)就相當(dāng)厲害了,至于能否挑戰(zhàn)人類智慧現(xiàn)在還是看不到任何苗頭。即便作為學(xué)術(shù)名稱,卻也感覺有點單薄,不如學(xué)學(xué)通信領(lǐng)域用“G”來定義。這完全可以類比,因為通信解決的是人和人交互的問題,人機自然交互解決的是人和機器交互的問題。隨著機器的數(shù)量越來越多而且越來越智能,人和機器的交互將是未來世界的主要問題。若采用“G”來劃分人機交互技術(shù),則大概可以劃分成如下5代,和移動通信類似,當(dāng)前也就在第4代階段,距離5G還有一定的周期。

即便參照“G”的分類方法也有很多種,若以商業(yè)普及作為重要的參考因素,個人覺得可以按照如下的方式來劃分:

第1代人機交互技術(shù):以旋鈕和鍵盤為代表,以模擬信號和字符為主要交互手段,可交互信息復(fù)雜度較高,效率很低,只能實現(xiàn)相對簡單的任務(wù),但是可靠性也最強。這個階段的產(chǎn)品主要是包括打字機、電視、照相機、早期計算機、功能手機等各種電子設(shè)備,一般都是小巧簡單的操作系統(tǒng)或者不用操作系統(tǒng)。

第2代人機交互技術(shù):以鼠標(biāo)為代表,以復(fù)雜圖形為主要交互手段,可交互信息復(fù)雜度較低,效率得到提升,易用性增強,學(xué)習(xí)成本降低。這個階段的產(chǎn)品主要就是個人計算機,Windows和Linux是代表性的操作系統(tǒng)。

第3代人機交互技術(shù):以觸摸屏為代表,以簡單圖形為主要交互手段,可交互信息復(fù)雜度更低,易用性提升,學(xué)習(xí)成本急劇降低。這個階段的產(chǎn)品主要就是以觸摸屏為核心的智能手機,IOS和Android是代表性的操作系統(tǒng)。

第4代人機交互技術(shù):以語音為代表,以遠(yuǎn)場語音為主要交互手段,從這個階段開始,人機交互的作用半徑變得更遠(yuǎn),真正釋放了雙手,而且人機交互變得更加簡單,同時人機交互和內(nèi)容服務(wù)耦合更強,交互具備了知識學(xué)習(xí)和傳遞的屬性,但是由于存在更多模糊空間,遠(yuǎn)場語音交互的可靠性相對下降。Amazon Alexa、Baidu DuerOS、iFlytek iFlyOS和SoundAI Azero是代表性的交互系統(tǒng)。

第5代人機交互技術(shù):以多傳感融合為主要交互手段,可交互信息的理解度和可靠性更高,融合交互將成為人和機器互相學(xué)習(xí)的關(guān)鍵路徑,并且這個階段人機交互的智能程度和主動程度都會得到大幅提升,機器可以感知人類的情感并且與人發(fā)起主動交互。

再總結(jié)探討一下,第5代人機交互(5G or 5I 5I means the fifth generationhuman-robot interaction technology)的技術(shù)趨勢可以暫時歸結(jié)為下面4個方向:

第1個方向就是遠(yuǎn)場化,雖然第4代人機交互就主打遠(yuǎn)場語音交互,但是我們要坦誠地面對現(xiàn)實的殘酷,當(dāng)前的技術(shù)遠(yuǎn)沒有那么好,我們在遠(yuǎn)場可靠性方面還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。第5代技術(shù)應(yīng)該徹底解決這些問題,讓機器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進步,需要整個產(chǎn)業(yè)鏈的共同技術(shù)升級,包括更為先進的傳感器和算力更強的芯片。更為重要的則是基礎(chǔ)理論技術(shù)的進步,特別是聲學(xué)的基礎(chǔ)理論突破,我們已經(jīng)等待太久了。當(dāng)然這也很難,比如生理聲學(xué)就受制于當(dāng)前實驗條件和人類倫理的約束比較難于突破,所以腦機接口當(dāng)前來看就更加困難,直接挑戰(zhàn)人類智慧的技術(shù)路線當(dāng)前來看都不太靠譜。

第2個方向就是融合化,“聲光電熱力磁”這些物理傳感手段,必然都要融合在一起,只有這樣機器才能感知世界的真實信息,這是機器能夠?qū)W習(xí)人類知識的前提條件。而且,機器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。機器的感知能力必須要超越人,事實上眾多儀器也已經(jīng)達到了這個目標(biāo),只不過,我們要把這些先進的傳感手段做的更加小巧更加便宜更加可靠,這是高端技術(shù)能夠走進尋常百姓家的關(guān)鍵所在。從當(dāng)前的技術(shù)進展來看,聲音和圖像的融合更為成熟,關(guān)鍵就在遠(yuǎn)場化。圖像識別若應(yīng)用到消費場景也必須遠(yuǎn)場化才行,比如說:抬眼一撇,從此便記住了她的容貌,而不是尷尬的站在攝像頭面前不知所措,這種交互體驗非常不友好更不吸引人。

第3個方向就是智能化,這也是最難實現(xiàn)的,因為智能本身的定義就是模糊的,這個智能化也不是類人智能,而是人類知識和機器知識互相傳遞的泛化,也就是讓機器可以理解人類的模糊知識,這并不是自然語義處理所能解決的事情。比如“像魚忘掉海的味道”,當(dāng)前再好的NLP引擎也無法釋義,同樣機器也無法準(zhǔn)確理解“小橋流水人家”,這就是意境。人也是這樣,高學(xué)歷也并不意味著有文化,比如我們AI公司,學(xué)歷都很高但是有時就比較缺文化。機器要智能就要有文化,那怎么來實現(xiàn)呢?人類怎么做的呢?比如高考時候的語文和英文考試,想拿高分閱讀量就是一個硬指標(biāo),所以機器也要這樣,先不用管什么方法什么模型的,記憶的足夠多就會有顯著效果。數(shù)據(jù)足夠多的公司,未來必然也會比較聰明。

第4個方向就是主動化,主動化要在智能化的基礎(chǔ)上實現(xiàn),讓機器嘗試?yán)斫馊祟惽楦斜磉_。這才是人工智能最大的商業(yè)價值所在,因為人和人之間的交互過程中,特別是在有商業(yè)價值的地方,主動交互占據(jù)相當(dāng)大的比例。想想其中的奧妙,當(dāng)前互聯(lián)網(wǎng)最為火熱的三大領(lǐng)域:搜索、電商和社交,歸根結(jié)底,到底是在做什么呢?搜索的商業(yè)變現(xiàn)為什么最終落在廣告業(yè)務(wù)呢?社交的商業(yè)變現(xiàn)為什么最終落在游戲業(yè)務(wù)呢?若想挖掘人機交互的商業(yè)價值,主動交互就是關(guān)鍵的技術(shù)。只需要部分理解人類思想和情感,就能稍稍影響人類的決策,這就是巨大的商業(yè)空間。況且,機器沒有人類的那么多情感負(fù)擔(dān),比如說機器怎么說甜言蜜語都不會覺得惡心,我們?nèi)祟惪隙ú粫褭C器看成我們的上下級關(guān)系,也不會把人類的框框強加于機器,當(dāng)然另外一個可能也是極為可怕,機器可能也無底線的無恥,其目的就是為了推銷一款商品。任何技術(shù)其實都有兩面性,但是掌握技術(shù)的是人類,是每一家的企業(yè),所以一家的企業(yè)價值觀決定了技術(shù)是服務(wù)人類還是敗壞世界規(guī)則。歸根結(jié)底,還是人的問題,人的問題,也都是教育的問題。要讓機器不斷學(xué)習(xí)更好的造福人類,人類也應(yīng)該不斷學(xué)習(xí)適應(yīng)機器才是。

這點還要稍微展開一下,人世間最難的莫過于重塑一個人的思想,以遠(yuǎn)場語音為核心的人機交互技術(shù)逐漸影響人類的決策,想想這就是令人激動的偉大事業(yè)。顯然,機器以海量的數(shù)據(jù)、強大的算力和優(yōu)異的算法為基礎(chǔ),永不疲憊的進化迭代,遲早是能夠大概理解一下人類的,這就足以影響一個人簡單的決策了,我們?nèi)祟惼鋵嵰残U懶的,日常小的決策非常依賴于周邊人群的建議,這就是一種趨同性,而機器恰恰擅長參與并引導(dǎo)這種趨同性。當(dāng)然,若將這種能力用錯了地方,對人類的傷害也很大,所以搜索引擎的谷歌才會有“不作惡”這個價值觀,若沒有這個風(fēng)險誰會閑來無事提這個價值觀呢。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號