矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
和服男女差別 在 演員黃浩詠 Facebook 的精選貼文
2020/7/21(早)
偶然在網路上看見一篇四個電影導演在討論年輕人說話不清楚的事情
覺得感觸很深
因為每次遇到年輕演員想要上聲音課、台詞課
永遠都得花非常多時間引導
效果還非常有限
看了文章的日期後
就更覺得正常和強烈失望
文章是2012年
表示這麼多年前這個現象已經出現、已經困擾了
2020的今天
差不多已經變成說不好的佔大多數
說好的是異類了⋯⋯⋯
不多說
自己看吧!
原文來自於網路《我可愛,我說不清楚》
這樣的常民語言和我八歲左右的孩子——也就是正在逐漸脫離兒語的年紀——相當接近。
換言之:大部分你我身邊五十歲以下的成人平日交談的狀態,從未離開過自己八歲左右的
情境。孩子們在這個階段,依然備受呵護,不大挨得起嚴厲的指責,一旦吵鬧過度而受到
訓斥的時候,還時時以囁嚅支吾之態,表達天真爛漫之情,企圖免責。我跟十足憂心這個
「語言返童現象」的馮小剛說:「這叫『可愛文化』,如果連對岸的成人也這麼說話,一
切沒治!」馮小剛的臉垮了下來,他一定在擔心,也許觀眾根本看不懂「非誠勿擾」四個
字。
--
總之是因緣際會之故,在過往兩年之間,四位導演和我在聚會閒談或節目訪問中都提及了
臺灣社會語言環境敗壞的問題。
作為電影導演,不能不考慮作為整體表演重要環節的語言能力該如何鞏固和培養,但是每
每看著綺年玉貌的明日之星,脫口而出的居然都是童子語甚至娃娃語,語言內容之淺薄貧
乏固無足論,就連正確、堅定的語氣都無從掌握。關於國語語境的崩潰、淪喪,陳可辛搖
頭表示震驚;王家衛說他只能感覺到那是一種「懶音」——從字面上說,就是「懶得發出
聲音」的說話;馮小剛則認為現在這種說起話來軟溜溜、黏糊糊、不清不楚的調調兒連大
陸年輕人都學上了,蔚為時尚流風。侯孝賢說得更明白:臺灣演員根本上已經「不會說話」
了。
壞語言不容易被察覺,乃是因為大家都使用這種語言。人們長期浸泡在不準確的發音環境
裡無甚講究,總以為「聽得懂意思就好」。一旦想到「發音字正腔圓、聲調抑揚頓挫」就
不免想到小學生演講比賽,以為那是裝腔作勢。的確,我自己打從小學開始聽人比賽演講
就渾身起雞皮疙瘩,那顯然是一種類似刑罰的處境。然而在誇飾的演說和準確的言詞之間,
還是有很明顯的差別,只不過我們大多數的人寧可不講究。
常民語言之敗壞總可以歸咎於大眾傳媒。我昨晚看電視新聞,當TVBS某女記者在一所醫
院裡說出下面這兩句話的時候,我立刻關掉了電視機:「目前還沒有查出車禍受傷的老
阿伯是什麼人,老阿伯還處於一個無名氏的狀態。」看起來沒什麼謬誤的語言之所以會令
我不安,是因為我很怕自己不知不覺受其蠱惑,墮入冗贅、支離、繁瑣且邏輯錯亂的文法
之中,難以自拔。一如:「前領導人夫人吳淑珍此刻正前往臺北看守所對陳水扁進行一個
探視的動作。」一如:「李老闆終於在所謂的金融海嘯之中,憑藉自己所謂的毅力和所謂
的發明,開創了一片所謂的自己的天空。」也不只是主播、記者滿口胼詞贅語,不論餐廳
裡做的是什麼菜,吃得滿臉油光接受訪問的民眾似乎只會這兩句:「口感滿順的,對啊。
湯頭也超贊的,對啊。絕對物超所值,對啊──耶!」你知道他腦袋裡的詞彙不夠用,所
以最後只能用手指比畫兩個「V」字對著鏡頭「耶」一下,表示努力助興了。
人們總願意在瘦身、減重、美白、化妝和服飾上儘量讓自己顯得美好,卻很少花時間反省
自己的語言是不是平順或準確,人們一點兒也不希望、不追求自己是個能流利運用字句的
人,所以在日常生活之中,總是任由自己完全接受大眾媒體慣用詞藻和語氣的操控,隨波
逐流。我們在彩妝和名牌手提包上似乎很強調個性,但是說起話來千篇一律,眾口一聲,
而渾然不覺得「喪失了自我」。這不是很荒謬錯亂的心態嗎?
我長期觀察吾人所生活的語境,在它最敗壞的期間養兒育女,忽然略有所悟:原來這樣的
常民語言和我八歲左右的孩子——也就是正在逐漸脫離兒語的年紀——相當接近。換言之:
大部分你我身邊五十歲以下的成人平日交談的狀態,從未離開過自己八歲左右的情境。孩
子們在這個階段,依然備受呵護,不大挨得起嚴厲的指責,一旦吵鬧過度而受到訓斥的時
候,還時時以囁嚅支吾之態,表達天真爛漫之情,企圖免責。
說穿了,成年的男女耍幼稚、混含糊,本質上是一種力圖以「可愛」為遮掩、為修飾的偽
裝;當這種「扮小免責」之情普及整個成人社會,就不要談什麼品質、品味了。我跟十足
憂心這個「語言返童現象」的馮小剛說:「這叫『可愛文化』,如果連對岸的成人也這麼
說話,一切沒治!」馮小剛的臉垮了下來,他一定在擔心,也許觀眾根本看不懂「非誠勿
擾」四個字。
和服男女差別 在 瑪那熊的愛情觀察 Facebook 的最佳貼文
好朋友辦的活動,分享一下
日式浴衣體驗Party,男女都可參加
而且會有專業攝影師拍照喔!
#話說有人知道浴衣跟和服差別在哪嗎
和服男女差別 在 和服外套 - 穿搭板 | Dcard 的推薦與評價
想問一下有人買過這種外套有穿出門的嗎,因為版上的和服外套我在蝦皮上找 ... 區分男女羽織的差別很簡單:看袖子有沒有與身體完全接合就好,有就是男 ... ... <看更多>