[No.H100]
3月24日消息,據(jù)外媒報道,自從iPhone誕生以來,我們就可以通過口述的形式發(fā)送短信。把亞馬遜搭載智能助手Alexa的智能音箱放在咖啡桌上,我們就可以從房間的任何地方點歌。與其他設(shè)備相比,它們可能更深入地理解某些聲音。
然而最新研究顯示,來自美國五大科技公司——亞馬遜、蘋果、谷歌、IBM以及微軟的語音識別系統(tǒng),在黑人用戶中的識別錯誤要比在白人用戶多出近倍。
斯坦福大學(xué)研究人員得出結(jié)論稱,這些系統(tǒng)在白人中錯誤識別單詞的可能性約為19%。在黑人中,錯誤率躍升至35%。其中,大約2%的白人音頻片段被這些系統(tǒng)認(rèn)為是不可讀的。而在黑人中,這各比例上升到20%。
這項研究采用了一種異常全面的方法來衡量語音識別系統(tǒng)中的偏差,為人工智能技術(shù)迅速進(jìn)入日常生活提供了另一個警示信號。
其他研究表明,隨著面部識別系統(tǒng)進(jìn)入警察部門和其他政府機(jī)構(gòu),在試圖識別女性和有色人種時,它們的準(zhǔn)確性可能會大大降低。單獨的測試已經(jīng)發(fā)現(xiàn)了“聊天機(jī)器人”、翻譯服務(wù)和其他旨在處理和模仿書面或口頭語言的系統(tǒng)中,都存在性別歧視和種族歧視行為。
紐約大學(xué)研究新技術(shù)中的偏見和歧視的統(tǒng)計學(xué)教授拉維·史洛夫(Ravi Shroff)說:“我不明白為什么在這些技術(shù)發(fā)布之前,這些公司沒有進(jìn)行更多的盡職調(diào)查。我不明白為什么這些問題總是層出不窮。”
所有這些系統(tǒng)都是通過分析大量數(shù)據(jù)來學(xué)習(xí)的。例如,面部識別系統(tǒng)通過識別數(shù)千張面孔的數(shù)字圖像中的模式來學(xué)習(xí)。
在許多情況下,這些系統(tǒng)模仿了他們在數(shù)據(jù)中發(fā)現(xiàn)的偏見,類似于孩子從父母那里染上的“壞習(xí)慣”。例如,聊天機(jī)器人通過分析大量的人類對話來學(xué)習(xí)。如果這種對話將女性與家務(wù)聯(lián)系在一起,將男性與首席執(zhí)行官的工作聯(lián)系起來,那么聊天機(jī)器人也會這樣做。
斯坦福大學(xué)的研究表明,領(lǐng)先的語音識別系統(tǒng)可能存在缺陷,因為這些公司在培訓(xùn)技術(shù)時使用的數(shù)據(jù)并沒有盡可能多樣化。這些系統(tǒng)的任務(wù)主要是從白人那里學(xué)習(xí),而黑人參與相對較少。
參與這項研究的斯坦福大學(xué)研究人員之一、專門研究非裔美國人語音的約翰·里克福德(John Rickford)說:“這可能是五家最大的語音識別公司,但他們都在犯同樣的錯誤。我們的假設(shè)是,這些公司很好地代表了所有種族,但事實并非如此。”
這項研究測試了來自蘋果、亞馬遜、谷歌、IBM和微軟五大科技巨頭公開可用的工具,任何人都可以用它們來構(gòu)建語音識別服務(wù)。這些工具不一定是蘋果用來構(gòu)建Siri的工具,或者亞馬遜用來構(gòu)建Alexa的工具,但它們可能會與Siri和Alexa等服務(wù)共享底層技術(shù)和實踐。
每種工具都在去年5月底和6月初進(jìn)行了測試,現(xiàn)在它們的操作方式可能會有所不同。研究還指出,在測試這些工具時,蘋果工具的設(shè)置與其他工具不同,需要些額外的工程才能進(jìn)行測試。
蘋果和微軟拒絕對這項研究發(fā)表評論。亞馬遜的一位女發(fā)言人指出,該公司在一個網(wǎng)頁上表示,它正在不斷改進(jìn)其語音識別服務(wù)。IBM沒有回復(fù)記者的置評請求。
谷歌發(fā)言人賈斯汀·伯爾(Justin Burr)表示,該公司致力于提高準(zhǔn)確性。他說:“幾年來,我們一直致力于準(zhǔn)確識別語音變體的挑戰(zhàn),并將繼續(xù)這樣做。”
研究人員使用這些系統(tǒng)對42名白人和73名黑人進(jìn)行了采訪。然后,他們將每組的結(jié)果進(jìn)行了比較。結(jié)果顯示,與白人相比,黑人語音的錯誤識別率明顯更高。
表現(xiàn)最好的系統(tǒng)來自微軟,它錯誤識別了大約15%的白人音頻和27%的黑人音頻。與此同時,蘋果的系統(tǒng)是表現(xiàn)最差的,在白人和黑人的情況下,分別有23%和45%的情況識別失敗。
這些黑人測試者來自美國北卡羅來納州東部一個以非洲裔美國人為主的農(nóng)村社區(qū),那里是紐約西部和華盛頓特區(qū)的一個中型城市,他們用語言學(xué)家所說的“非裔美國人地道英語”說話,這是一種有時由城市地區(qū)和美國其他地區(qū)的非裔美國人說的英語。
白人測試者則來自美國加州,包括來自該州首府薩克拉門托,另一些人來自大約500公里外的一個以白人為主的農(nóng)村地區(qū)。
研究發(fā)現(xiàn),當(dāng)比較黑人和白人說出的相同短語時,“種族差距”同樣大。這表明問題出在訓(xùn)練系統(tǒng)識別聲音的方式上。根據(jù)研究人員的說法,這些公司似乎沒有對代表非裔美國人白話英語的足夠數(shù)據(jù)進(jìn)行培訓(xùn)。
斯坦福大學(xué)工程學(xué)教授、參與這項研究的莎拉德·戈爾(Sharad Goel)說:“結(jié)果并不是孤立的,問題也并不局限于某一家特定的公司。我們在所有5家公司的語音識別系統(tǒng)中都看到了相似的模式。”
這些公司都已經(jīng)意識到了這個問題。例如,2014年,谷歌研究人員發(fā)表了一篇論文,描述了早期語音識別中存在的偏見問題。
去年11月份,前谷歌首席執(zhí)行官兼董事長埃里克·施密特(Eric Schmidt)在斯坦福大學(xué)發(fā)表了演講,主題就是“合乎道德的”人工智能。他說,谷歌和硅谷的其他公司都很清楚,人工智能系統(tǒng)的構(gòu)建方式需要修正。
施密特當(dāng)時表示:“我們知道這些數(shù)據(jù)存在偏見,你不需要把這當(dāng)作一個新的事實來大喊大叫。人類都有偏見,我們的系統(tǒng)也是如此。問題是:我們該怎么做?”
像谷歌這樣的公司可能很難收集到正確的數(shù)據(jù),而且他們可能沒有足夠的動力來收集這些數(shù)據(jù)。馬薩諸塞大學(xué)阿默斯特分校專門研究人工智能技術(shù)的教授布倫丹·奧康納(Brendan O‘Connor)說:“這個問題很難解決,這些數(shù)據(jù)很難收集。我們正在打一場硬仗。”
這些公司可能面臨“先有雞還是先有蛋”的問題。如果他們的服務(wù)主要由白人使用,他們將難以收集可以為黑人服務(wù)的數(shù)據(jù)。如果他們在收集這些數(shù)據(jù)時遇到困難,這些服務(wù)將繼續(xù)主要由白人使用。
華盛頓大學(xué)教授諾亞·史密斯(Noah Smith)說:“當(dāng)你開始思考這些反饋循環(huán)時,你會覺得有點兒可怕。這是一個令人感到十分擔(dān)憂的問題。”(騰訊科技審校/金鹿)
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...