當(dāng)表現(xiàn)出種族或性別歧視覆蓋

發(fā)布時(shí)間：2021-11-05 06:19:25

當(dāng)AI表現(xiàn)出種族或性別歧視

數(shù)據(jù)集中的偏差常常體現(xiàn)出了制度基礎(chǔ)和社會權(quán)力關(guān)系中更深、更隱蔽的不均衡。例如，維基百科看起來是一個(gè)豐富多樣的數(shù)據(jù)源，但是該站上的人物頁面里只有18%是女性。

AI正在改變我們的經(jīng)濟(jì)和社會，改變我們交流的方式，改變我們的行政和政治。不平等在我們的社會中積疾已久，不能讓AI在不經(jīng)意間延續(xù)甚至惡化這一問題了。

谷歌翻譯在將西班牙語翻譯成英語時(shí)，通常將提及女人的句子翻譯成“他說”或“他寫道”。尼康相機(jī)中用來提醒拍照者照片中的人有沒有眨眼的軟件有時(shí)會把亞洲人識別為總在眨眼。

單詞嵌入——一個(gè)用來處理和分析大量自然語言數(shù)據(jù)的流行算法，會把歐裔美國人的姓名識別為“正面”詞匯，而非裔美國人的姓名識別為“負(fù)面”詞匯。

在有偏差的數(shù)據(jù)集上訓(xùn)練出的算法通常只能將左邊的圖片識別為“新娘”。

除此之外，人們還發(fā)現(xiàn)了其他很多人工智能（AI）系統(tǒng)性地歧視特定人群的例證。

決策偏見并不是AI獨(dú)有的問題，但由于AI的應(yīng)用范圍越來越大，解決AI偏見至關(guān)重要。

導(dǎo)致AI產(chǎn)生偏見的原因

楊七明常常噓寒問暖導(dǎo)致AI產(chǎn)生偏見的一個(gè)主要因素是訓(xùn)練數(shù)據(jù)。大多數(shù)機(jī)器學(xué)習(xí)任務(wù)都是使用大型、帶標(biāo)注的數(shù)據(jù)集來訓(xùn)練的。

例如，用于圖像分類的深度神經(jīng)絡(luò)通常會使用ImageNet進(jìn)行訓(xùn)練，其中包含了逾1400萬張帶標(biāo)簽的圖片。這種方法會在無意中產(chǎn)生出包含了性別、種族和文化偏見的數(shù)據(jù)集。

通常來說，會有一些人群被代表過度，而另一些則代表不足。

ImageNet推動了計(jì)算機(jī)視覺研究，但是其中超過45%的數(shù)據(jù)來源于美國，而美國人只占世界人口的4%。相反，中國和印度加起來只占其中3%的數(shù)據(jù)量，而兩國人口卻占了世界人口的36%。

由此看出，這些動物體內(nèi)除了大腦，還有一個(gè)獨(dú)立的系統(tǒng)來處理身體的變化。這些現(xiàn)象引發(fā)了我們的思考：機(jī)器人體內(nèi)可以構(gòu)建這樣的系統(tǒng)嗎？答案是——可以。

缺乏地理上的多樣性可以在一定程度上解釋為什么計(jì)算機(jī)視覺算法會把傳統(tǒng)的身著白色婚紗的美國新娘標(biāo)注為“新娘”、“禮服”、“女人”、“婚禮”，而印度新娘的照片則會被標(biāo)注為“表演”和“戲服”。

偏見的另一個(gè)來源可以歸于算法本身。一個(gè)常見的機(jī)器學(xué)習(xí)程序會試圖最大化訓(xùn)練數(shù)據(jù)集的整體預(yù)測準(zhǔn)確率。

如果訓(xùn)練數(shù)據(jù)集中某類人群的出現(xiàn)頻率遠(yuǎn)多于另一人群，那么程序就會為占比更多的人群進(jìn)行優(yōu)化，這樣才可以提高整體的準(zhǔn)確率。

有缺陷的算法還會造成惡性循環(huán)，使偏見越發(fā)嚴(yán)重。舉例來說，使用統(tǒng)計(jì)方法訓(xùn)練出的系統(tǒng)，例如谷歌翻譯，會默認(rèn)使用男性代詞。這是因?yàn)橛⒄Z語料庫中男性代詞對女性代詞的比例為2:1。

更糟糕的是，每次翻譯程序默認(rèn)翻出“他說”，就會提高絡(luò)上男性代詞的比例——這可能會逆轉(zhuǎn)女性在性別平等上所獲得的艱難勝利。

數(shù)據(jù)偏差來源于制度和社會

在關(guān)于女性的條目中，鏈接到男性條目的數(shù)量遠(yuǎn)比男性條目鏈接到女性條目的數(shù)量要多，因此搜索引擎里就更容易找到關(guān)于男性的條目。女性條目里還包含了更多的伴侶和家人信息。

因此，在構(gòu)建訓(xùn)練數(shù)據(jù)集時(shí)必須進(jìn)行技術(shù)處理，并將社會因素納入考慮范圍。我們不能局限于方便的分類方式——“女人/男人”，“黑人/白人”等——這些分類方式無法捕捉到性別和種族認(rèn)同上的復(fù)雜性。數(shù)據(jù)管理者應(yīng)當(dāng)盡可能提供與數(shù)據(jù)相關(guān)的描述語的精確定義。

公平是什么？

計(jì)算機(jī)科學(xué)家應(yīng)努力開發(fā)能夠穩(wěn)定應(yīng)對數(shù)據(jù)中的人類偏見的算法。

當(dāng)計(jì)算機(jī)科學(xué)家、倫理學(xué)家、社會科學(xué)家等人努力提高數(shù)據(jù)和AI的公平性時(shí)，我們所有人都應(yīng)該思考“公平”到底應(yīng)該指什么。

數(shù)據(jù)是應(yīng)當(dāng)表現(xiàn)現(xiàn)有的世界，還是應(yīng)當(dāng)表現(xiàn)大多數(shù)人所追求的世界？

又比如，用來評估應(yīng)聘者的AI工具是應(yīng)當(dāng)評價(jià)應(yīng)聘者是否有能力，還是應(yīng)聘者是否能融入工作環(huán)境？應(yīng)該讓誰來決定哪種“公平”才是更為優(yōu)先的？

計(jì)算機(jī)、程序和進(jìn)程塑造了我們的態(tài)度、行為和文化。AI正在改變我們的經(jīng)濟(jì)和社會，改變我們交流的方式，改變我們的行政和政治。不平等在我們的社會中積疾已久，不能讓AI在不經(jīng)意間延續(xù)甚至惡化這一問題了。

上海無痛人流醫(yī)院排名
西安治療早泄哪家好
一品紅

猜你會喜歡的