矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
財不露白造句 在 逆嘶亭 Facebook 的最佳貼文
維園晚會for the newbies
悼念六四係我參與政治嘅起點,支聯會燭光晚會去過兩年,覺得肉麻,轉身一別,然後就返唔到轉頭。十七八歲嘅我,係徹頭徹尾嘅大中華膠,但始終求真嘅堅持,終於將我引向另一航道,而我至今仍然未有改觀——中國有民主,香港至會有民主或者有運行,一年比一年站唔住腳。二零一九年,我深感正確嘅觀念可以喺人生早期形成係莫大運氣,亦慶幸自己從來唔係嗰啲大言不慚話讀書唔重要嘅靈長生物,因為若干年後,等到某個歷史轉折過後,當世人都抱怨不斷嘅時候,我就唔會需要為點解會咁後知後覺而追悔,因為上帝早已預備,而上帝不過係人類自身。
我傾向以行為判斷他人,相信仔細去聽其言觀其行,可以睇穿一切障眼之術。組織宗旨口號反映思想綱領,如果冇內在,就唔會支撐得起相應嘅選字造句。支聯會主張平反六四,附帶嘅係結束一黨專政,以及建立民主中國。我記得當年第一次去維園,我對於呢一切都仍然毫無感覺,只係人云亦云咁講話要記住真相,要為歷史做見證。其時社交網絡尚未喺香港興起,做呢啲都冇而家咁做畀人睇,主要係為咗自我感覺良好,等自己同知識分子嘅標籤更近一步。認中方能關社,關社自然認中,上承七十年代嘅本地學潮,一直如是。
之後,必須感激支聯會成員一再暴露真貌,我逐漸就發覺,其實成個儀式,同我嘅香港人認同有矛盾。香港人認同係與生俱來,因為我土生土長,出身基層,廣東話流利,聽嘅係陳奕迅嘅哲理情歌,睇嘅係無綫嘅顛峰之作,接受嘅係香港嘅社會常態。雖然香港文化嘅根基不穩,但我意識到佢係如同物質嘅實然存在,差嘅只係借作時間加以固化——其實只要三代人,唔需要多,三代人同我經歷一樣嘅香港生活,香港就有力自成一格。於是,我開始唔理解支聯會成員致力鼓勵新移民來港家庭團聚嘅立心,攻擊天安門母親丁子霖嘅舉動,支聯會嘅唯我獨尊姿態,亦日益鮮明。加上台上哭喪儀式同台下成員處事應對判若雲泥,我開始心生戒心,然後一發不可收。
接受組織,源於信任。而當信任崩壞,凝聚力就會一去不返。支聯會靈魂人物司徒華同共產黨關係密切係事實,佢人在學友社之時,所做嘅任務就係統戰香港。據梁慕嫺所言,司徒華因為太具鋒芒而受到妒忌,地下黨擔心佢自成一系,尾大不掉,就密謀計算佢,已經略為心灰,而後來佢喺文憑教師薪酬事件同中共決裂,更加證明自己已經唔再親共,但關鍵係,反對組織,唔等於唔再愛國,因此司徒華仍然唔係心繫香港嘅堅實同道。不論後來成為香港名人嘅司徒華有冇再次受到中共統戰,回歸黨嘅懷抱,愛國多於愛港,可以話係毋庸置疑。由此延伸,支聯會死攬住中國唔放,呢個取態令身為香港人嘅我份外覺得周身唔聚財,而批判之意亦油然而生。
無可否認,燭光晚會係香港最有gimmick嘅活動,newbie要開始接觸政治,首選非佢莫屬。有重大歷史事件為基底,有各大團體雲集籌款,有宣示口號有歌曲唱誦,有片有騷有獎抽有女溝,熱鬧非凡,newbie去完一定熱血沸騰,「深感自己做咗啲嘢」。社會人對於儀式嘅追求,渴望從儀式中得到嘅情感慰藉,以至借助儀式去塑造自我形象嘅意慾,燭光晚會都可以滿足。正因如此,好多唔太思考香港利益嘅人,或者滿足於表現我關心政治嘅人,至今都唔察覺燭光晚會有問題,更加唔會去諗悼念六四可以有其他模式。有現成儀式就舉家赴會,有現世論述就據為己有,無視香港正受中國殖民,忽略中國潰而不崩未必有利香港,正正就係而家都去緊維園嘅人嘅心態。
尋日有位素來同佢唔算有太多思想交流嘅友人,六四前夕心血來潮,於是叫我幫佢校對佢嘅Facebook status,然後我睇完,就講咗句「至少都算關心政治」,以聊勝於無嘅態度鼓勵佢。然而,不出意料,佢忽然就話我口氣好大,憑乜覺得自己一套最有智慧最有道理,然後就情緒大作。因為以前已經有同佢討論港獨嘅經驗,我知道佢唔係胸襟廣闊,可以真心聽取唔同政治見解嘅人,我都唔打算多言,關心六四但又唔去理解港獨思潮出現呢種表現,實在令我缺乏動力用更加溫和嘅口吻去加以引導。我無法接受嘅係,以關心香港政治嘅人自居嘅人,至今都仍然對本土意識抬頭避而不談,至今都仍然昧於支聯會嘅hidden agenda(not so hidden to me though),然後重口口聲聲話我自以為是,高人一等。我唔認為世人需要認同佔領行動,認同梁天琦黃台仰行徑,認同香港獨立勢在必行,但覺得自己好文明,但唔接受香港人有權按住民自決原則去獨立建國,呢種態度只有偽善可以形容。當人無法意識或承認自己嘅偽善,就自然會成為注重顏面而缺乏自覺嘅人,而咁樣嘅人,係連有效溝通都唔會開啟到,讀幾多書都唔會有用,因為讀書所學同佢處世之道根本從來冇重疊過,更加唔好話有所整合。
而其實,低度投入政治,本身係冇是非對錯。鄙視他人唔理政治嘅心態,我已經戒咗好耐,因為人人起步同際遇都唔同,覺醒係冇得強求。我自身亦唔係好關心政治嘅人,遊行示威甚少參與,因此我亦唔會介意有人同我講我唔關心政治,因為我清楚知道政治係參與得幾多都唔會夠,而就算身居要位,已經係政界要人,其實都唔等於佢係高度參與政治。參與政治係一種狀態,而連自我都未發掘出黎嘅人,自己嘅生活都未過得好嘅人,參與政治只係越級挑戰,因為佢地根本唔會從政治之中有所領悟,用返喺自己嘅人生,亦唔會識得以自身所得嘅領悟,裝備政治立場,從而以最適當嘅行為去表達自己嘅政治見解。關心政治之前,首先要關心自己嘅內在,盡力面對自己嘅恐懼,反思自己嘅缺失,否則場刊同紀念品拎得再多,最終雙手都只會空空如也。
熱戰不再,新冷戰如箭在弦,我最期待嘅畫面終於出現,和平時代生於安逸嘅典型少年,非我莫屬。閱讀上個世紀歷史,我成日都想回到過去,參與參與唔切嘅大事,例如六四,直到而家自己都開始有隱約感知風雨將至嘅預測觸覺之後,至逐漸又明白到戰爭有幾可畏,而安樂茶飯又有幾難能可貴。又或者更準確而言,係我到咗但求歲月靜好嘅心境,而又遇到因惺惺相惜而及時入席嘅真命。所謂真命唔等於會永遠一齊,或者為佢而學識貪生怕死,但佢令我更有勇氣去面對虛無,面對死亡,面對未來嘅世途險阻,到適當嘅時機再為我所愛嘅香港獻身,因為佢都一直努力緊去精進佢嘅人生,而成個香港都一直努力咁掙扎求存。只有精進自身,至可以講為他人付出,為香港貢獻,修身齊家先於一切之義,大概如此。
gnimmm.com/2019/06/04/newbies/
財不露白造句 在 喳喳勇闖美利堅 Cha Cha Go Facebook 的最讚貼文
我的專長是破產
(發廢文只為了po照片)
.
.
我是一個不事生產的人
需要美豔動人的母親(拍馬屁之拿人手短
把錢固定匯給我
.
.
我今天又赫然沒錢了
怎麼會這樣!
我明明這
超級省的耶
.
.
.
於是我就手刀衝到附近的銀行
理財專員是一個光頭白人,年約38
我:我好像被盜刷耶,我都沒錢了!(慌張)
專員露出周杰倫一般的屌笑
專員:你沒有被盜刷,讓我把你花der錢印出來給你瞧瞧
結果一字排開的明細幾乎都是食物!
麥當勞 chipotle 星巴克
隨便吃吃一天就是五十塊美金起跳
以後為了省錢我還是吃人夠夠 或是 吃螺絲 就好了
傻眼
(好啦,其實還有Uber和材料費,我還不小心買了一隻長笛,還有譜架和兩本譜,一本是冰雪奇緣)
.
.
我:要怎樣才能省錢啊
專員:你應該要少在外面吃,然後自己煮!
我:所以你都自己煮喔?
專員:沒有,我都在外面吃
我:Whaaaaaaaat 那你怎麼省錢
專員:我賺超多的啊,不用省!
我:那你想當我的 sugar daddy 嗎?
專員:No, but you can just masturbate, you'll be fine
啊哈哈哈哈哈
好啦後面是我亂加的
教大家怎麼造樣造句囉>.^
傻眼耶
哪有人自己說賺很多!
但他真的不想當我的sugar daddy (金卡達夏醜哭
.
.
後記:朋友跟我說他之前靠著鞭打男人賺錢,我說那他會探索你的秘密花園嗎?朋友說不會,她說她每週去把他綁起來,然後鞭打他(有時候要滴蠟)順便用言語羞辱那個男子就可以了!我說哪來這這麼適合舒壓的工作!重點是錢還超級多!不過這個行業也是有條件,就是要美豔動人,等等,我開頭是不是用美豔動人形容家母啊?家母屁屁股好像滿大der,美國人都愛大屁股,都是我的錯,我頭太大從她子宮出來的時候把它髖骨給撐大,祝大家新年快樂喔!
.
.
沒事可以看一下過年該如何對付親友
https://www.youtube.com/watch?v=3C2NyN4Yacw