計算機視覺簡史:被稱為“人臉識別”的計算機視覺經(jīng)歷了什么?
導語:發(fā)展60多年來,機器視覺作為AI技術的急先鋒,經(jīng)歷了幾輪起落,終于迎來技術上的爆發(fā)。但隨著技術進入深水區(qū),尋找合適的商業(yè)模式真正成為了機器視覺這門技術的最大難點。
1999年上映的《黑客帝國》雖然不是人類關于人工智能的第一次影視化探索,卻可以說是最有影響力的一次。
電影講述的是基努李維斯飾演的網(wǎng)絡黑客尼奧發(fā)現(xiàn)自己生活的世界被某種外部力量控制并通過調(diào)查發(fā)現(xiàn)自己活在人工智能的虛擬世界里,之后同一個反抗者組織奮起而抗爭的故事。
在《黑客帝國》設定的真實世界中,他們的肉體早已被當作被養(yǎng)殖的作物,為母體供應能量,只有意識在母體Matrix中活動,誤以為自己還在過正常生活。
2011年,英劇《黑鏡》第一季上線,之后連續(xù)推出四季,這是一部探討科技對人類生活改變的電影,其中也包含諸多人工智能對于人類生活的改變與顛覆故事。
2016年,HBO發(fā)行的科幻類美劇《西部世界》上線,講述了由一座巨型高科技以西部世界為主題的成人樂園,提供機器人接待員給游客,讓他們實現(xiàn)殺戮與性欲的滿足;但后來隨著接待員有了自主意識和思維,他們開始懷疑這個世界的本質(zhì),進而覺醒并反抗人類的故事。
這些電影,講述的多是人工智能發(fā)展的高級階段,更是最近大家討論的“元宇宙”的形象化表現(xiàn)。
拋開道德上的善惡對錯不談,回到人工智能技術本身,在達成這些了不起的成就之前,在計算機能夠“思考”之前,最早需要開始學習的技能是“感知”,其中最重要部分之一就是學會“看”,這也幾乎是公認的人工智能第一步。
就在《黑鏡》上映的同一年——2011年,如今被稱為“AI四小龍”之一的曠視科技在三個天才少年的帶領下成立了,隨后四年間,商湯科技、依圖科技和云從科技業(yè)全部拔地而起,所選擇的賽道都是“人臉識別”,其實本質(zhì)就是讓計算機看圖。
最近,在經(jīng)過多年的奮戰(zhàn)之后,基于搶占賽道或者搶占資金的想法,他們?nèi)缃窠K于走進了資本市場的視野。除了依圖科技已經(jīng)撤回上市申請之外,其他三家都離上市僅一步之遙了。
這些年,被稱為“人臉識別”的計算機視覺都經(jīng)歷了什么?
起步階段:人類對教會機器“看”的執(zhí)念
在我們講述計算機視覺之前,先要了解目前人工智能所處的階段,那就是“感知智能”,無論是AI四小龍的“人臉識別”還是科大訊飛的“語音識別”,都落在這一階段。
在此之前,我們還只是用計算機來計算數(shù)據(jù)、運行代碼,但這只是初級的“計算智能”階段,F(xiàn)在計算機已經(jīng)學會了“感知”,不過距離計算機“能理解、會思考”的認知智能階段,也就是最開始講的那些電影里能達到的最終水平,還差得很遠。
讓計算機學會“感知”,最重要的一步就是”看“了。
眼睛,是人類用來觀察這個世界的最重要器官,也是唯一的視覺器官。在佛家所謂的六根——眼耳鼻舌身意中,眼睛也排在首位。
用眼睛看,是人類與生俱來的能力,剛出生的嬰兒只需要幾天的時間就能學會模仿父母的表情,人們能從復雜結(jié)構的圖片中找到關注重點、在昏暗的環(huán)境下認出熟人。
人類對眼睛的功能是有執(zhí)念的。
為了將自己看到的東西保存下來,人類發(fā)明了照相機。最早的真正照相機來自1839年1月,當時中國還在清朝的道光年間。攝影師達蓋爾在巴黎沙龍上展示了銀板照相法,將涂有碘化銀的銅片暴露在光線下,然后通過汞蒸汽和食鹽溶液來顯影,震驚了法國科學院,并于當年推廣開來。
銀板照相法所使用的就是這種用木箱子裝的相機。
自此人類終于學會長時間保存眼睛看到的圖像了,之后又有了膠卷和即顯攝影。
但似乎對于人類來說,光是記錄并不夠,我們還想讓機器自己去看,并且告訴我它們看到了什么。
為了讓機器學會如何去“看”,就有了計算機視覺,當然,它更為大家所熟知的名稱是“人臉識別”。
最初的探討發(fā)生在1956年左右。在當年的達特茅斯會議上,約翰麥卡錫、馬文閔斯基、克勞德香農(nóng)、艾倫紐厄爾和赫伯特西蒙等科學家聚在一起,討論著一個完全不食人間煙火的主題:用機器來模仿人類學習以及其他方面的智能。
會議一共開了兩個月的時間,雖然大家沒有達成普遍的共識,但是卻為會議討論的內(nèi)容起了一個名字:人工智能。因此,1956年也就成為了人工智能元年。
1957年春天,美國國家標準局的科學家拉塞爾·基爾希為他的兒子瓦爾登拍了一張照,并將其掃描到了東部標準自動計算機(SEAC)中。為了使圖片可以放進SEAC有限的存儲空間中,他將圖片分割成176176的網(wǎng)格——共30976位二進制,并進行了多次掃描。這張邊長5厘米的正方形圖片就是歷史上第一張數(shù)字圖像,從某種意義上來講它甚至是CT掃描、衛(wèi)星圖像和數(shù)碼攝影的鼻祖。
1959年,神經(jīng)生理學家大衛(wèi)·休伯爾和托斯坦·維厄瑟爾通過貓的視覺實驗,首次發(fā)現(xiàn)了視覺初級皮層神經(jīng)元對于移動邊緣刺激敏感,發(fā)現(xiàn)了視功能柱結(jié)構,為視覺神經(jīng)研究奠定了基礎——促成了計算機視覺技術40年后的突破性發(fā)展,奠定了深度學習的核心準則。
到了60年代,勞倫斯羅伯茨在《三維固體的機器感知》描述了從二維圖片中推導三維信息的過程,成為計算機視覺的前導之一,開創(chuàng)了理解三維場景為目的的計算機視覺研究。這個研究給世界帶來了很大啟發(fā),并且對邊緣、線條、明暗等各種特征建立了各種數(shù)據(jù)結(jié)構和推理規(guī)則。
1969年秋天,貝爾實驗室的兩位科學家韋拉德博伊爾和喬治史密斯正忙于電荷耦合器件(CCD)的研發(fā)。它是一種將光子轉(zhuǎn)化為電脈沖的器件,很快成為了高質(zhì)量數(shù)字圖像采集任務的新寵,逐漸應用于工業(yè)相機傳感器,標志著計算機視覺走上應用舞臺,投入到工業(yè)機器視覺中。
70年代是人工智能發(fā)展的低潮期。
80年代后計算機視覺成為一門獨立學科,并開始從實驗室走向應用。80年日本科學家福島邦彥建立了第一個神經(jīng)網(wǎng)絡,82年大衛(wèi)馬爾發(fā)表了一篇非常有影響力的論文,介紹了處理視覺數(shù)據(jù)的算法框架,同年《Vision》這本書問世,標志著計算機視覺正式成為了一門獨立學科。
大發(fā)展:卷積神經(jīng)網(wǎng)絡與深度學習
90年代計算機視覺的發(fā)展整體比較落寞,因為訓練神經(jīng)網(wǎng)絡是一項資源非常密集、并且進展極為緩慢的工作。
一直到2005年之后,才又迎來快速發(fā)展階段。
2006年左右,杰弗里·希爾頓(Geoffrey Hilton)和他的學生首次提出了深度置信網(wǎng)絡(DBN)的概念。他給多層神經(jīng)網(wǎng)絡相關的學習方法賦予了一個新名詞–“深度學習”(Deep Learning)。
人腦視覺系統(tǒng)的信息處理是分層的。簡單來說,就是要先從功能相對低級的區(qū)域分辨出朝向、空間位置和運動方向,然后到下一個區(qū)域再去處理形狀和顏色等信息。
比如當你看《黑客帝國》時,你是先看到一個人朝著鏡頭走過來,然后才分出這個人的臉型和各種面部特征、穿著的衣服顏色,根據(jù)這些信息和你大腦中原有的海量信息做匹配,你就能夠判斷出來這個正在運動的人是基努里維斯。
所以在大腦中,對一個形象的判別是分層次處理的,并不是一股腦把所有信息交給某個部分,然后它突然得出結(jié)論這個人是里維斯。
而深度學習就是借鑒人腦的信息處理過程,對信息進行分層處理,進行特征提取和分類。深度學習的實質(zhì),是通過構建具有很多隱層的機器學習模型和海量的訓練數(shù)據(jù),來學習更有用的特征,從而最終提升分類的準確性。
計算機需要學習足夠的數(shù)據(jù),才能訓練出一個能夠用于識別的模型。
數(shù)據(jù)量很重要,對你的大腦也是一樣。一個不是特別恰當?shù)睦邮?如果你沒見過里維斯,你就算看到了這個五官、清晰地分別出頭發(fā)和瞳孔顏色,也沒有辦法判斷他到底是誰。
這也是為什么,在網(wǎng)絡數(shù)據(jù)受限的情況下,深度學習的資源就不夠。
此外,神經(jīng)網(wǎng)絡的分層也是在不斷進步的。
2005 年以前提出的人工神經(jīng)網(wǎng)絡只是一種淺層模型,只含有一層隱層節(jié)點,但這比人腦簡化太多了,效果也就差得多。
而用深度置信網(wǎng)絡解決來這個問題,可以構建更多層的模型,更接近人的視覺神經(jīng)系統(tǒng)的結(jié)構。
不過隨著時間的推移,深度置信模型(DBP)也有一些問題,包括計算量太大、樣本量太大等等。卷積神經(jīng)網(wǎng)絡(CNN)又可以解決這個問題,它將每一層信息僅通過一個“卷積核”相連。
你可以理解兩個平面之間,前者是需要每個點直接相連,現(xiàn)在只需要中間的一個點直接相連。
等于DBN需要計算機一次性看完整張圖,全局對比;但CNN可以一步一步一塊一塊地對比小特征,和分布式系統(tǒng)的感覺有點像。
這樣處理樣本的速度就顯著加快了。
據(jù)廣證恒生在2019年的研究報告,美國國家標準與技術研究院(NIST)公布了全球權威人臉識別比賽(FRVT)最新報告,從前十名企業(yè)在千分之一的誤報率下的識 別準確率來看,其平均能達到 99.69%,在千萬分之一誤報下的識別準確率超過 99%,意味著機器幾乎可 以做到在 1000 萬人的規(guī)模下準確識別每一個人。
而人腦記憶100個人的身份都有可能出錯。
這幾年,無論是安防中的人臉識別,還是高鐵閘機上的人臉識別,抑或是證券在線開戶、交易等,大家都開始自由地使用人臉作為個人識別的特征。
當技術不再困難的時候,在討論倫理之前,創(chuàng)業(yè)公司們卻首先迎來了商業(yè)化的難題。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 小米YU7新增835公里續(xù)航版,6-7月面市
- 3 昆侖萬維24年營收56億,AI出海商業(yè)化獲重要進展
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 大模型下半場:Agent時代為何更需要開源模型
- 8 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關稅,能否乘機器人東風翻身?
- 9 中國“智造”背后的「關鍵力量」
- 10 全球無人駕駛技術排名:誰才是細分賽道的扛把子?