「社會之所以格外尊重醫師、律師、護理師、教師、建築師這類職業,大部分正是因為他們的職業要求他們遵守道德規範以及跟安全有關的法律。這些職業的特殊社會地位,伴隨著更嚴苛的職業操守和注意義務。如今我們的生活已經遍佈各種軟體、人工智慧、數位生態系;但那些打造日常生活家電與程式的人,卻不受任何聯邦法規或強制性規範的約束,許多人都因此沒有認真思考他們的產品會對使用者與整體社會的道德造成怎樣的影響。」
-克里斯多福.懷利,劍橋分析前技術總監及吹哨者。
#贈書活動 #請耐心讀到最後
#野人文化 #劍橋分析
這陣子川普確診COVID-19的消息成了全球新聞頭條。媒體紛紛從過往報導中,找出川普曾經的荒謬發言,像是建議用消毒水注射到體內殺菌等瘋狂言論,又一次被翻了出來。但其實川普的瘋狂發言早在四年多前參選總統時就開始了。
我猶原記得當川普決定參選美國總統時,幾乎成了所有人茶餘飯後的娛樂話題,因為那時幾乎整個網路和媒體都認定當選的人將會是希拉蕊。川普不愧為長年的媒體寵兒,熟知媒體運作的他,也清楚怎樣的發言會引來媒體聲浪。不管是主張要禁止穆斯林進入美國也好,還是要遣送非法移民回到他們的母國,修築那瘋狂的美墨邊境城牆更是瘋狂的難以想像。但最後川普贏了,這結果誰也無法料想。
2018年時,劍橋分析公司的內部員工,開始陸續出面爆料這家公司如何影響了2016年的總統大選。劍橋分析的主要業務,是資料探勘及數據分析。他們網羅了眾多專業人士,透過政治學、經濟學、社會學、心理學等人文學科,結合程式數據分析,進而解析出網路社群上使用者的道德觀念、消費偏好、政黨傾向、意識形態等數據。再根據收集而來的資料,依據不同的目的對網路使用者進行分類。以選舉來說,他們能明確得知用戶的消費紀錄、按了哪個臉書的讚,居住在哪裡,對某議題的看法,對某公眾人物的評價等,最後依據此些用戶的屬性,能準確判斷出其分類。比起過去的政治上單純使用經濟收入、職業、居住區域、宗教、族裔等屬性作分類,劍橋分析這套方式更全面、更領先,也更令人毛骨悚然。
但劍橋分析遠遠不只如此。他們能依據對使用者屬性的分類,準確猜測出使用者在乎甚麼議題? 在意候選人的那些發言? 又或者在生活中最痛恨哪一類人等等資訊。藉由整理資訊所得到之結果,他們能做到「精準投放」。這裡的精準投放不只是你在網路上查了吸塵器的資訊,接著幾天都有著一堆吸塵器的廣告推播,而是真正意義能改變使用者行為的資訊。他們並且知道,與其和選民講所謂的道理,不如從他們生活中的情緒切入,包含他們所仇恨的族群,所處的社會階級,以及生活上的苦惱等。這些都成了劍橋分析「精準投放」的著力點。
舉例來說,他們透過篩選經濟收入低落、居住在車上、工作不穩定等條件,篩選得出的白人男性。他們看著民主黨自由派不斷主張白人男性佔據社會的優勢地位,並且強調黑人男性受到的不公平待遇。在這些社會地位低落的白人男性看來,那些同樣經濟狀況不佳的黑人,不但有著政黨關注、社會福利,連大眾媒體上受到的關愛也比較多,轉頭又看到來自墨西哥等國的非法移民,不但搶了自己的工作,還慢慢在自己遭周紮根成家立業。這種現況要他們如何接受? 於是劍橋分析便從這些人的情緒下手,煽動仇恨,讓他們選擇做出對自己也無甚有力的主張,只為了宣洩內心的情緒。而這小小的一門分類,只是劍橋分析這間巨大的資料公司,百萬項屬性分類中的一種罷了,他們還有個大量關於宗教、收入、族裔、人際關係以及消費紀錄等等的分析結果。
那這些資料是如何取得的? 其實比你我想得簡單,劍橋分析公司那時為了蒐集資訊,推出了許多APP或臉書上的小程式,內容多半都是些心理分析、人格測驗、益智測驗。這些看似無害的小程式,提供了趣味的測驗作為煙霧彈,其真實目的是要使用者「主動」願意分享個資。在給予這些程式權限之後,資料分析公司便能取得使用者的臉書資料,甚至還能查看你朋友的相關訊息。結合不同來源之資料,統整後拼出每個臉書使用者的人格樣貌、政治意識形態、人際關係,以及消費習慣等不會輕易向他人揭露的資訊。
本次與 野人文化 合作推薦的《Mindf*ck 心智操控》,是由前劍橋分析技術總監克里斯多福.懷利所撰寫的書籍。他談及了他是如何與如今聲名大噪的亞歷山大尼克斯以及史帝夫班農的相識過程,也聊到劍橋分析這間公司是如何在共和黨金主的支持下成立,又如何與學術單位合作,取得數以千萬計的美國選民個資,更談及這套分析的機制如何運作。同時也揭露了劍橋分析與世界大小國家的選戰合作,也包含了和俄羅斯合作關係。
台灣人對於劍橋分析事件並不熱衷。或許是因為該事件發生在較注重個人隱私的歐美社會,況且劍橋分析後續揭露的相關歷史,也多與台灣無關,自然該事件在台灣的知名度較低。不過我想這正是一個機會,透過了解劍橋分析事件,能讓我們對個人資訊安全更加重視。
此外本書《Mindf*ck 心智操控》並不孤單,野人文化也出版了另一本同為劍橋分析事件揭密的《Targeted操弄》,由另一名劍橋事件吹哨者布特妮.凱瑟(Brittany Kaiser)所撰寫,就是在Netflix上知名紀錄片《個資風暴》的主角。因為兩名作者在事件中扮演的角色不同,因此著眼點也有相當差異。《Targeted操弄》著重在討論整起事件的演變和歷程,《Mindf*ck 心智操控》的主角是技術人員,內容重心則在他們如何順利取得個人資料,並如何遊走在法律邊緣下運用這些資料進行公關操作。
兩本書的作者,除了在內容上對劍橋分析事件做了相當詳盡的討論之外,也分別在後記中,講述了他們對於此次事件的感想,包含我們能做甚麼? 以及政府是否要為了資訊安全而做出相關政策或建設。《Targeted操弄》的作者布特妮.凱瑟便提出五項策略,分別為「培養數位識讀能力」、和立法者合作」、「協助企業做出道德的選擇」、「要求管制單位對濫權者問責」,以及「在自己的數位生活中做出道德的選擇」等相當有建設性的意見。而《Mindf*ck 心智操控》的作者克里斯多福.懷利,更是提出應該要加強軟體工程師的道德枷鎖及束縛,而非像是現在毫無道德責任。
不過,當代網路文化畢竟如此,我們不可能全然避免個資的外洩。在我們遊玩臉書上各小有趣的測驗小程式之時,要千萬小心自己的個資外洩,絕對不要在尚未看清楚詳細說明之前就按下同意。當然這並不是那麼容易的任務,畢竟我們多半不認為我們的個資會值錢到哪裡去。但我們如果連保護自己的意識都沒有,連注意自身權益都做不到,那我們還談甚麼不被媒體操弄呢?
因此齋主誠摯推薦《Mindf*ck 心智操控》和《Targeted操弄》兩書。在當代資訊科技如此發達的前提下,我們要懂得保護個人資料,並了解媒體操作的本質,避免受到媒體影響,培養獨立思考的精神。
正巧博客來在10/7、10/8是會員日,今天買書有打折。如果齋友們你看了齋主的推薦文,覺得這兩本書的內容很是有趣,歡迎你上各大購書通路購買。我想書中曲折離奇的情節,必定會讓你愛不釋手,三兩下就讀完的。
購書連結
https://www.books.com.tw/products/E050076958
========活動辦法========
本次野人文化也相當大方,提供了兩本《Mindf*ck 心智操控》,作為本次活動的贈書。
活動辦法如下
此次活動贈書共有兩本。
活動截止日期:10/11(日) 20:00
抽獎名額:共二名,請完成以下條件以進行抽獎
1.按讚並公開分享本貼文。
2.於留言處標註兩名友人
齋主會在活動結束後的第一時間抽出幸運的得獎者。
最後,感謝野人文化對酸齋齋友們的慷慨及支持,我們將共同為台灣的閱讀風氣,奉獻更多心力。
資料探勘 舉例 在 鄭龜煮碗麵 Facebook 的最讚貼文
人工智慧時代,一個自我實現的預言 (中)
上回我們講到現在的人工智慧,最重要的價值就是越來越能提供廉價且準確的「預測」。在《AI經濟的策略思維》一書中,作者強調:預測就是情報,是以已經掌握的資訊,來創造還未掌握的資訊,填補缺失的環節,而這就是人類智慧的關鍵。
想像一下,你現在回到幾十萬年前,成為智人的老祖宗,你一個人直立行走在草叢中,突然看見不遠處有一叢草枝擺的幅度比較大,在這一瞬間,你馬上判斷這搖擺的方式不是風吹,而是動物在動,甚至還判斷出動物的大小跟可能是什麼動物,於是要嘛你拔腿就跑,要嘛找尋周遭有無石頭好防身,代表你已經藉由察覺環境中出現的模式,推斷出草叢後可能的危險。
但要是你這位老祖宗看到這樣的情形,卻待在原地思考要用什麼科學方法來調查草叢搖擺的原因,甚至滿懷好奇心地撥開草叢,想直接目睹,你極有可能成了猛獸的餐點,沒機會把你那充滿好奇的基因跟思維方式傳下來。
雖然這樣的預測其實就是腦補,而且我們都知道到了現在,我們這種腦補的 #捷思 已經成了一個大問題,讓我們很容易被有心人刻意產出、安排的資訊陷阱(例如假新聞)給矇騙,但我們還是得感謝我們的老祖宗愛腦補,不然也輪不到我們現在擔心這些問題,早就被淘汰了。
在機器學習出現之前,我們主要是用統計方法中的多變數迴歸分析 (multivariate regression) 來有效率地降低預測錯誤。這種方式可以在數據比較少,而且可以判斷 #大概是哪些條件對預測有幫助 的時候。
什麼是迴歸分析:
https://zh.wikipedia.org/wiki/%E8%BF%B4%E6%AD%B8%E5%88%86%E6%9E%90
多元線性回歸分析預測法
https://wiki.mbalib.com/zh-tw/%E5%A4%9A%E5%85%83%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E5%88%86%E6%9E%90%E9%A2%84%E6%B5%8B%E6%B3%95
例如,假設我們要預測一家電信公司的 #顧客流失率,你覺得要注意哪些條件呢?一個最主要的觀察重點,就是用戶用 #手機上網的時間跟消耗的流量,畢竟如果他們都沒在用,就可能會把帳戶停了。
但機器學習就不是這樣子,不需要跟迴歸分析一樣,先確定條件,而是讓機器自己從大量資料中辨識出特徵或模式,例如同樣要預估電信公司的顧客流失率,你就可以建立模型,然後把每分鐘的通話、簡訊或上網紀錄、帳單金額、準時付款與否、甚至每天數百萬使用者的地點等各種資料都交給人工智慧去學習、並找出模式。變數可能有好幾千個。
例如你可能會發現,在每個月前幾天就花很多時間講電話的顧客,比起帳單金額高,但都在每個月最後幾天講電話的人,比較不會流失。或是在每天 9-17 點常用電話的人,比起少用電話的人,更容易流失。這些都很難一開始就預測到,但機器學習可以透過 #資料探勘 (Data mining),找到從我們眼角溜過的那些蛛絲馬跡。
有了好的預測,會大大的影響決策。就像上篇中的一張圖表示的。舉例來說,棒球教練會根據對方打者的擊球模式、過往的打擊數據(也就是 #輸入)判斷這個打者可能會打出安打,或是內野滾地球被接殺,這就是 #預測。
接著教練得做出怎麼安排野手的守備位置比較好的 #判斷。
如果往外野退,但打者打出內野犧牲打、讓隊友盜壘怎麼辦,如果往內野縮,那就可能會讓外野安打失分更多,又該怎麼辦?權衡之後,教練就得發出指令,這就是 #行動。
接著就是看打者到底會被三振、還是擊出安打、還是被接殺...最後的結果也將以 #數據化的形式,成為訓練預測跟判斷的 #資料。
同樣的,醫生會根據我們的症狀找出模式,來對症下藥。股市交易員會針對指數的升降,找出模式,然後加以預判,看是要買進或賣出。
我們也會根據走路姿態,甚至腳步聲,認出從走廊走過來的是誰,決定要不要跳出來嚇她(誤)或跟咬著吐司與她互撞來交換靈魂(無誤)。
我們人類所做的事情都跟預測有關,但也都不只是預測,因此各位可以想想,如何「拆解」一件事情,變成很多個細節小任務,然後去想:這許多小任務中,有哪些其實就是在「預測」?那麼,如果要讓人工智慧來代替這個預測的環節,我們需要哪些資料來訓練呢?
相較於人類的預測,機器的預測可以規模化,每次預測的單位成本會越來越低,而且速度將漸漸比人類更快、更好。這是很有競爭力的一點。但有兩個挑戰:
第一:就目前以及可預見的近未來來看,人類的認知模式還是比人工智慧更能了解真實世界的運作,我們的感官跟大腦讓我們能夠用很少量的數據就做出預測。所以,在非典型事件、資料量較少的情況下,人類預測的正確率還是遠超過機器預測的。
第二:雖然預測的成本低了,但判斷跟行動的代價還是很高,這時候最好的方式就是結合人類跟機器。並且讓機器去學習「#人類在這種情況下會怎麼做?」
舉例來說,現在 Google 等公司提供的翻譯就是一種預測,他們透過深度學習,對一篇英文文章提出機器所能得出的中文版本,通常會提出好幾個版本讓我們去挑選,我們可以省下一個字一個字自己去全文翻譯,或是請人翻譯。
如果機器預測的品質,也就是翻譯的結果太差,我們就會放棄。但如果品質不錯,我們挑了一個版本之後,可以自己簡單調整修飾,看是要改成口語一點還是嚴謹一點,就可以省下不少時間。透過人與機器的搭配,決策跟行動都可以更有效率。
自駕車也是一樣。除了讓電腦不斷提升辨識路況、號誌、各種物件、各類訊號的精準度以外,先當個副駕駛,學會人到底是怎麼開車的、在不同的情況下會怎麼做,其實更是關鍵。
在我想好下篇該寫什麼之前,大家不妨可以分享一下你的看法:你在日常生活中已經感受到哪些「預測平價化」帶來的改變呢?
上集請見:
Medium https://medium.com/%E9%84%AD%E9%BE%9C%E7%85%AE%E7%A2%97%E9%BA%B5/%E4%BA%BA%E5%B7%A5%E6%99%BA%E6%85%A7%E6%99%82%E4%BB%A3-%E4%B8%80%E5%80%8B%E8%87%AA%E6%88%91%E5%AF%A6%E7%8F%BE%E7%9A%84%E9%A0%90%E8%A8%80-%E4%B8%8A-f7f344e8be0
FB:
https://www.facebook.com/noodleswithturtle/posts/570211210140916
再推薦一次好書:
《AI經濟的策略思維》
https://www.books.com.tw/products/0010803316
想上我跟洪智傑老師開的的 AI 入門課,請到這裡:
https://panschool.asia/product/人工智慧必修課
資料探勘 舉例 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳貼文
台灣微軟與大世科成立「海量資料技術中心」
化繁為簡! 無須高額投資 以既有IT投資即可輕鬆駕馭海量資料分析
【CTIMES 報導】 2013年11月25日 星期一
________________________________________
瀏覽人次:【49】
台灣微軟以實際行動協助企業一步步挖掘海量資料背後的奧義、掌握黃金礦脈, 繼10月初與中華資料採礦協會合作打造「微軟資料科學研究院」,共同培育資料革命時代的關鍵人才後,今 (25) 日再與與大同世界科技 (以下簡稱大世科) 攜手成立「海量資料技術中心」,協助企業分析既有IT架構,以最低成本駕馭海量分析技術。透過「海量資料技術中心」,企業可以真實體驗到,以熟悉的科技和 延伸既有的IT投資,就可將「高速平行處理架構 (Massive Parallel Processing, MPP) 、Hadoop技術及關聯式資料庫整合在單一平台,並透過商業智慧分析工具,進行各種決策分析應用,降低企業導入海量資料分析系統的技術門檻。
海量資料技術中心整合多項資源 單一平台降低技術門檻
中華資料採礦協會理事長謝邦昌教授說:「非結構性與結構性資料整合不易、欠缺海量資料分析人才、及動輒上千萬的解決方案投資成本是阻礙企業導入海量資料分析的三大門檻,以致企業雖然知道海量資料分析的重要性,但卻無法付諸行動。」
現 今市場上談到海量資料時多偏重於非結構性資料的蒐集技術,企業需要重新學習新的技術如Hadoop,且動輒須上千萬的投資,才能進行大規模的海量資料分 析。加上目前的海量資料分析解決方案只有高速平行處理架構(Parallel Processing, MPP)、關聯式資料庫及Hadoop技術的單一方案,使得海量資料的分析還停留在資料蒐集的研發階段。
台 灣微軟與大世科合作成立的「海量資料技術中心」,透過微軟SQL Server PDW (Parallel Data Warehouse)解決方案,已經成功將這三種技術整合在單一平台,企業不需再花費心力學習各種海量資料蒐集的技術,只需專注在海量資料分析的能力養 成,即可透過海量資料的探勘,獲取企業營運商機。
台灣微 軟營運暨行銷事業群總經理康容表示:「台灣微軟致力因應當前科技趨勢,透過技術研發、人才培育計畫及客戶夥伴合作關係,為企業營運創造實質效益與影響。今 年10月初,我們和中華資料採礦協會共同成立了『微軟資料科學研究院』,協助企業培育具備探勘海量資料能力的資料科學家;今天則進一步與大世科合作,成立 『海量資料技術中心』,提供海量資料分析概念驗證、效能調教及分析顧問諮詢,大幅降低海量資料分析的技術門檻,讓企業能夠以既有的技術及IT投資,就能分 析海量資料背後所深藏的奧義。」
海量資料技術中心 深化台灣運用海量資料技術的探勘實力
海 量資料技術中心透過微軟SQL Server PDW (Parallel Data Warehouse) 解決方案,囊括商業智慧與關鍵性任務系統,能夠將高速平行處理架構的外部資料、非結構性的活動紀錄及關聯性資料庫的商業資料整合在單一平台,同時具備高效 的運算能力。舉例而言,以往需要花費2天又17小時才能在50 TB的資料中搜尋出結果,現在透過微軟SQL Server PDW (Parallel Data Warehouse) 解決方案僅需20分鐘即可完成,若查詢分散在各處超過10億筆以上的龐大資料也能夠從7小時縮短至27秒;高效能、高彈性的海量資料分析平台,協助企業快 速掌握市場商機。
「大世科是台灣首家獲得微軟 MCloud技轉的業者,近兩年多來與台灣微軟合力在金融、醫療、零售等諸多產業建立了多個指標性成果。」大同世界科技總經理沈柏延表示:「能夠快速整合 各種海量資料的微軟SQL Server PDW解決方案,大幅降低海量資料分析的技術門檻,我們非常看好海量資料分析未來的發展性,與微軟合作成立『海量資料技術中心』,就是希望藉由挹注更多投 資,建置完善的海量資料分析體驗環境與應用情境,並提供專業技術資源與諮詢,協助企業快速導入海量資料分析方案,藉由商業智慧創造全新商機。」
海量資料探勘日 邀請各產業擁抱海量資料分析
為 讓企業實際體驗企業如何透過「海量資料技術中心」如何從海量資料中取得關鍵性決策資料,台灣微軟大世科共同規劃了一系列的海量資料探勘日活動,初期鎖定在 醫療、流通等垂直領域,以及對海量資料需求甚殷的金融、電信等產業,佐以針對不同產業性質融入BI概念,設計一系列情境,邀請企業用戶至一起來探勘海量資 料的奧秘。
資料來源:http://www.ctimes.com.tw/…/%E5%8F%B0%E7%…/1311251356OC.shtml
資料探勘 舉例 在 【企業內外部資料使用型態矩陣 】 進入#行銷資料科學時代 的推薦與評價
舉例 來說,稍具規模的店家每日、每週和每月 會有結算的#Excel 報表,負責人可以知道每段時間的營業狀況,以便儘速進行調整。至於大型零售商則可以透過數位儀表板,掌握 ... ... <看更多>
資料探勘 舉例 在 10 資料探勘| 資料科學與R語言 - Yi-Ju Tseng 的推薦與評價
在非監督式學習中常見的資料探勘演算法如下:. Hierarchical clustering 階層式分群; K-means clustering; Neural Networks 神經網路; Deep Learning 深度學習. 以下介紹在 ... ... <看更多>