訂閱
糾錯(cuò)
加入自媒體

人工智能輔助決策的隱患

2019-01-08 10:28
EAWorld
關(guān)注

詞嵌入

摘自“矢量空間中詞語表示的有效估計(jì)”,2013年

詞嵌入是機(jī)器學(xué)習(xí)中使用的一種技術(shù),在機(jī)器學(xué)習(xí)中,單詞被翻譯成一個(gè)向量-這些向量構(gòu)成了用于算法的詞匯字典。詞嵌入在翻譯服務(wù)、搜索和文本自動(dòng)完成提示等許多常用應(yīng)用中得到了廣泛的應(yīng)用。根據(jù)向量的角度,機(jī)器將能夠理解單詞的意義,進(jìn)而理解詞匯的普遍聯(lián)系和對(duì)應(yīng)關(guān)系。例如,“國(guó)王和王后”與“王子和公主”有關(guān)。對(duì)詞嵌入能力的理解層級(jí)可以相當(dāng)復(fù)雜,這使得它成為分析SAT測(cè)試、求職申請(qǐng)、求職信等的一個(gè)很好的工具。

摘自Bolukbasi等人的論文,2016年

然而,詞嵌入的一個(gè)問題是,它有可能擴(kuò)展現(xiàn)有的性別聯(lián)系。波士頓大學(xué)的Bolukbasi等學(xué)者對(duì)谷歌翻譯服務(wù)中使用的詞嵌入技術(shù)進(jìn)行了研究。在訓(xùn)練中很少涉及人類工程師的介入,代之以自然語言內(nèi)容的文章、新聞、書籍等詞庫(kù)為基礎(chǔ)進(jìn)行訓(xùn)練。Bolukbasi考察了土耳其語與英語翻譯的關(guān)系,因?yàn)橥炼湔Z使用性別中性代詞而不是明確的“(男)他”或“(女)她”。在將土耳其語翻譯到英語的過程中,谷歌將被迫選擇一個(gè)性別代詞。這項(xiàng)研究發(fā)現(xiàn)了谷歌的性別歧視偏見,因?yàn)樗鼘ⅰ皁 bir doktor”翻譯為“他是一名醫(yī)生”,而將“o bir hemsire”翻譯為“她是一名護(hù)士”。

“知情”算法與“不知情”算法

從表面上看,消除偏見、解決公平問題的最簡(jiǎn)單方法是,隱藏造成偏見的信息:例如,在審查簡(jiǎn)歷的算法中,排除簡(jiǎn)歷中的姓名和性別,理論上聽起來可能會(huì)防止性別偏見的發(fā)生。畢竟如果沒有關(guān)于性別的信息,那么機(jī)器就不可能對(duì)男人和女人有不同的對(duì)待,對(duì)吧?

但現(xiàn)實(shí)比這更加復(fù)雜。上述方法被稱為“不知情”的算法構(gòu)建方法。如果要?jiǎng)h除性別這一屬性,前提是在工作能力方面,性別將是一個(gè)可以忽略不計(jì)的因素。然而,由于算法是經(jīng)由訓(xùn)練來識(shí)別統(tǒng)計(jì)數(shù)據(jù)中的模式的,所以無論我們?cè)趺醋,?shù)據(jù)集中都會(huì)不可避免的體現(xiàn)社會(huì)中的相關(guān)性、刻板印象和不平等,這些因素既然存在于現(xiàn)實(shí)中,也就存在于我們訓(xùn)練算法的數(shù)據(jù)集中。即使沒有明確說明,機(jī)器學(xué)習(xí)也將能夠獲得與性別相聯(lián)系的可見特征。例如,用于雇傭的分類算法可能會(huì)將權(quán)重放在兵役年限上,并將其與能力或忠誠(chéng)聯(lián)系起來,而在以色列,男性通常服務(wù)3年,而女性則服務(wù)2年。這就使得服役年限成了一個(gè)與性別密切相關(guān)的屬性,刪除了這一基本信息,就刪除了做出客觀決策所必需的上下文。正因?yàn)槿绱,一個(gè)“不知情”算法有時(shí)會(huì)比“知情算法”有更大的偏差。

另一方面,“知情算法”使用性別信息,可以將婦女服役時(shí)間較短的趨勢(shì)納入考慮的范疇。彌合準(zhǔn)確性與公平性之間的鴻溝往往需要權(quán)衡:畢竟魚和熊掌不可兼得!安恢樗惴ā笔且粋(gè)更公平的過程:在訓(xùn)練階段不考慮敏感屬性。然而,這可能導(dǎo)致有偏見的結(jié)果!爸樗惴ā笔褂昧艘粋(gè)更不公平的過程:將敏感的分類和信息納入考量,但最終可能產(chǎn)生更客觀的結(jié)果。

反饋循環(huán)/自我延續(xù)

機(jī)器學(xué)習(xí)很容易陷入反饋循環(huán),這最終會(huì)導(dǎo)致偏見的延續(xù)。例如,當(dāng)機(jī)器預(yù)測(cè)用于刑事風(fēng)險(xiǎn)評(píng)估時(shí),黑人比白人更有可能被評(píng)為高風(fēng)險(xiǎn)。這純粹是由于黑人和白人之間在犯罪記錄上的懸殊差異造成的,不幸的是,這反映了人類在種族方面的偏見。而且,隨著機(jī)器不斷的給黑人貼上高風(fēng)險(xiǎn)標(biāo)簽,數(shù)據(jù)集的數(shù)據(jù)逐漸的累加,從而使對(duì)黑人被告的偏見雪上加霜。在這種情況下,系統(tǒng)不僅反映了從人類偏見中學(xué)到的模式,而且還加強(qiáng)了自己的學(xué)習(xí)過程。

替代目標(biāo)

除了訓(xùn)練數(shù)據(jù)中存在的問題外,偏見還可以通過多種方式進(jìn)入算法的過程。我們的下一項(xiàng)研究是關(guān)于傳播算法度量的構(gòu)造有效性:你的度量方法是否達(dá)成了既定的目標(biāo)?當(dāng)它不能準(zhǔn)確度量時(shí),會(huì)產(chǎn)生什么后果呢?

社交媒體算法不再基于時(shí)間序顯示帖子,而是通過機(jī)器學(xué)習(xí)算法過濾所有你曾經(jīng)參與過的事情。目標(biāo)是根據(jù)你以前的興趣來衡量你的參與度,然后它會(huì)向你展示它認(rèn)為你可能會(huì)參與的更多的內(nèi)容。對(duì)一段內(nèi)容的參與率越高,算法就越有可能將該內(nèi)容推薦到新聞提要上:理想情況下,這是有意義的。因?yàn),理論上,受歡迎的帖子應(yīng)該是更好的內(nèi)容,否則,為什么會(huì)有這么多人喜歡?

不幸的是,人類并不擁有足夠的智慧,讓這個(gè)算法可以恰如其分地工作。一直以來,表現(xiàn)最好的內(nèi)容往往是由虛假新聞、名人八卦、政治誹謗和許多其他對(duì)改善世界毫無意義的東西組成的。但是對(duì)此算法是無法理解的,所以惡性循環(huán)仍在繼續(xù)。

譯注:

替代目標(biāo)所講,就是對(duì)于無法直接達(dá)成的目標(biāo)采用的替代做法。如我們無法準(zhǔn)確的獲知人們對(duì)于內(nèi)容的喜好所表達(dá)的方式是什么,因此只能生硬的選擇點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)等指標(biāo)作為替代目標(biāo)來進(jìn)行評(píng)估。而人們喜歡或者不喜歡一個(gè)內(nèi)容,或者一個(gè)內(nèi)容是否足夠優(yōu)秀,其真正的成因往往是十分復(fù)雜的。

人們?cè)谡衅高^程中的許多決定也被移交給AI,用以進(jìn)行簡(jiǎn)歷篩選、工作能力分析和比較等。招聘工作是一個(gè)非常強(qiáng)調(diào)時(shí)限的過程,招聘過程的每個(gè)參與方都要付出高昂的代價(jià):一旦出錯(cuò)的話代價(jià)甚至更高。據(jù)全美高校和雇主協(xié)會(huì)估計(jì),在一家500人規(guī)模的中型公司中,雇傭一名雇員的費(fèi)用約為7,600美元。通過讓算法來完成這一繁重的任務(wù),企業(yè)可以將其大部分資源和資金投入到其他地方,最終也更可能找到合適的人才。

然而,“替代目標(biāo)”成為這個(gè)過程中的一個(gè)問題,因?yàn)閷?duì)許多理想的工作特征的評(píng)估很難直接操作。如今,業(yè)界的一些熱門詞匯包括“創(chuàng)造力”、“溝通”和“生產(chǎn)力”,所有這些都是難以衡量的。衡量創(chuàng)造力的最常見的方法是替代用途測(cè)試,在這種測(cè)試中,人們會(huì)為常見的項(xiàng)目提供非常規(guī)的用途(比如,列舉出回形針的25種用法,用以檢測(cè)應(yīng)聘者“不走尋常路”的能力,譯者注);谶@一衡量標(biāo)準(zhǔn),員工可能會(huì)被分配一個(gè)“創(chuàng)造力能力傾向”分?jǐn)?shù),這個(gè)分?jǐn)?shù)會(huì)加入訓(xùn)練數(shù)據(jù)集,用以篩選具備相同特質(zhì)的員工。問題是,替代測(cè)試只是測(cè)試創(chuàng)造力的一個(gè)方面,即發(fā)散思維。它忽略了創(chuàng)造力的所有其他方面,而有些方面可能對(duì)公司文化非常有價(jià)值。其結(jié)果是,公司招聘了一大批具備“創(chuàng)造力”的員工,然而他們卻都是以同樣的方式來進(jìn)行“創(chuàng)造”的:這很諷刺,也很無聊。

我們已經(jīng)將機(jī)器學(xué)習(xí)算法用于做出重要決策的可能性盡量理想化了,但事實(shí)是,機(jī)器無法理解客觀性、真實(shí)性、中立性或平等性。而當(dāng)人類生命受到威脅時(shí),所有這些特征都是重要的考慮因素。我們將何去何從?

結(jié)語

盡管我們已經(jīng)闡明了人工智能模型可能帶來的許多問題,但仍舊有很多理由可以支撐我們從以人為中心的決策方式轉(zhuǎn)變?yōu)榛谌斯ぶ悄艿臎Q策方式。正如前面提到的,盡管人工智能存在種種缺陷,但它仍然比人類更客觀。正因?yàn)槿绱,我們看到人工智能在基于決策和預(yù)測(cè)的任務(wù)中的應(yīng)用仍舊在持續(xù)深入。但是,較少的偏見并不等同于沒有偏見,當(dāng)算法做出有偏見的決定時(shí)會(huì)發(fā)生什么?我們?nèi)绾螞Q定誰應(yīng)該為此承擔(dān)責(zé)任?畢竟我們沒辦法去懲罰一個(gè)有偏見的預(yù)測(cè)算法(能怎么辦呢,刪除它?)

可以說,跟蹤問責(zé)制的最佳方法是對(duì)人工智能決策過程進(jìn)行準(zhǔn)確和詳細(xì)的記錄。也就是說,做出決定的過程和數(shù)據(jù)必須是透明的,這樣如果有任何問題發(fā)生,第三方審計(jì)師就能夠追溯導(dǎo)致結(jié)果的步驟,以找到問題的根源。人們已經(jīng)為此制定了法案和法律,以保持相關(guān)實(shí)踐的透明度。

當(dāng)然,審計(jì)方法本身并不是沒有問題的。對(duì)于具有大數(shù)據(jù)集的人工智能來說,審計(jì)并不總是可行的,審計(jì)也不總是適用于深度學(xué)習(xí)系統(tǒng),后者不只面臨大數(shù)據(jù)集的問題,還面臨復(fù)雜的計(jì)算網(wǎng)絡(luò)的挑戰(zhàn)。算法的自主性和透明性似乎互相矛盾,隨著算法在‘學(xué)習(xí)’和調(diào)整方面變得越來越好,人們就更難理解偏見發(fā)生在哪里了。雖然審計(jì)對(duì)于更簡(jiǎn)單的模型是有效的,但我們可能需要一種不同的方法來減輕復(fù)雜算法的偏見。

另一種減輕偏見的方法是針對(duì)AI的訓(xùn)練者和創(chuàng)建者。通過讓他們意識(shí)到自己的偏見,我們有更好的機(jī)會(huì)將這些偏見排除在算法之外(比如,在設(shè)計(jì)谷歌翻譯時(shí)考慮中性性別代詞)。值得注意的是,人類的偏見是客觀存在的,而且很難減輕,因?yàn)樗且环N進(jìn)化特征,但我們至少可以不斷意識(shí)到我們自己的大腦容易受到偏見的影響?傊绻覀儾粩鄬W(xué)習(xí)、自查、保持明智并做出正確的選擇,算法將可以為緩解由來已久的偏見作出貢獻(xiàn)。

“繼續(xù)努力使文化變得更好,并不斷更新人工智能,以跟蹤文化的發(fā)展。這才是上策!

——喬安娜·布萊森

相關(guān)參考資料

1.Abate, Tom., Krakovsky, Marina. “Which is more fair: a human or a machine?” Stanford Engineering, January 31, 2018.

2.Bornstein, Aaron M. “Are Algorithms Building an Infrastructure of Racism?” Nautilus, December 21, 2017.

3.Bright, Peter. “Microsoft Terminates Its Tay AI Chatbot After She Turns Into a Nazi.” Ars Technica, March 24, 2016.

4.Courtland, Rachel. “Bias Detectives: the researchers striving to make algorithms fair.” Springer Nature, Macmillan Publishers, June 21, 2018.

5.Miller, Alex P. “Want Less-Biased Decisions? Use Algorithms.” Harvard Business Review, July 26, 2018.

6.Schep, Tijmen. “What is Mathwashing?” Mathwashing, 2018.

7.Shapiro, Stewart. “The Objectivity of Mathematics.” Synthese, vol. 156, no. 2, 2007, pp. 337–381.

8.Bolukbasi, T., Chang, K., Zou, J., Saligrama, V., Kalai, A. “Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings.” Microsoft Research New England, 2016.

9.Yona, Gal. “A Gentle Introduction to the Discussion on Algorithmic Fairness.” Towards Data Science, Medium. October 5, 2017.

<上一頁(yè)  1  2  
聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)