EP38的搭配服用地圖終於來了!毫無意外的,當然就是做全台灣的神社分佈圖啦!廢話不多說,以下摘錄幾個重點——
📌 在1945年以前的日本社格制度中,神社依據是否從中央政府取得財源,分為「官社」與「諸社」,前者地位較高。
📌 官社內部又可依照「國幣社/官幣社」以及「大社/中社/小社」分級,台灣總共只有五座官社——
- 大社(1):台灣神宮,與明治神宮、伏見稻荷大社同級
- 中社(1):台南神社,與京都貴船神社、廣島嚴島神社同級
- 小社(3):新竹神社、台中神社、嘉義神社
📌 諸社裡面地位較高者為縣社與鄉社(從地方政府獲得財源),通常設在行政中心所在地,並且與行政區相互對應。從這張圖上就可看出,雖然鄉社並未遍及所有街庄(鄉鎮),但很多的郡級行政中心(東石郡—朴子、北門郡—佳里、曾文郡—麻豆)都有鄉社,而且這些地方至今仍是台灣較重要的鄉鎮市區!
(註:本圖是直接使用中研院的資料製作,並沒有把全部神社都列入,若有遺漏之處歡迎私訊我修正!)
推薦大家有空快去聽熱炒店的EP38,講得更詳細更清楚唷~除此之外,本圖還有網路互動版本,歡迎大家點進去玩一玩,裡面有非常詳盡的資訊(下方連結)!
🗺️ 網路互動版:
https://www.arcgis.com/apps/StoryMapBasic/index.html?appid=6d321281d398406ead4ba269279adc20
可點選圖上點位,查看200多座神社的詳細資料以及現況!
(使用ArcGIS Online StoryMap製作)
📊 資料來源:
中央研究院人社中心GIS專題中心—台灣歷史文化地圖—日治時期全台神社分布圖
https://data.depositar.io/dataset/rd15-01011
(本資料僅包含了206座神社,實際上曾經存在的神社數量應該更多)
🔊 【EP38 拯救你的日本LOSS!——牛年走春,一起去尋訪台灣各地的神社吧】
Spotify, Apple Podcasts, Google Podcasts, SoundOn, Firstory, Baabao, KKBox
所有平台收聽連結請點此 ltsoj.com 或者直接搜尋「旅行熱炒店」
Show note ltsoj.com/podcast-ep038
FB: 旅行熱炒店Podcast
IG: instagram.com/travel.wok
#podcast #travel #播客 #音頻 #自助旅行 #中文podcast #台灣podcast #台灣 #台灣旅遊 #台灣旅行 #台灣景點 #日治時期 #大日本帝國 #明治維新 #第二次世界大戰 #內地延長主義 #皇民化運動 #社格制度 #國家神道 #神道教 #神社 #台灣神宮 #圓山大飯店 #琉球 #八瑤灣事件 #牡丹社事件 #明治神宮 #伏見稻荷大社 #貴船神社 #嚴島神社 #日本
「google dataset」的推薦目錄:
- 關於google dataset 在 旅行熱炒店Podcast Facebook 的最佳貼文
- 關於google dataset 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
- 關於google dataset 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
- 關於google dataset 在 Google Research Datasets - GitHub 的評價
- 關於google dataset 在 Using Google Dataset Search to get free datasets - YouTube 的評價
- 關於google dataset 在 Python 資料科學與人工智慧, profile picture - Facebook 的評價
- 關於google dataset 在 Google BigQuery access public dataset through API - Stack ... 的評價
google dataset 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
Google、軟銀都陣亡過!盤點 AI 專案失敗的 4 大原因
Posted on2021/02/04
若水AI Blog
【我們為什麼挑選這篇文章】為了適應未知多變的世界,許多企業搶做「數位轉型」,從公司營運的各層面如客戶體驗、商業模式、企業文化到作業流程等,透過科技的導入來提升效率與效能;而對製造業企業而言,原料採購、物流管理、庫存調配、生產、行銷等環節則是企業主進行數位轉型會優先考量的面向。
在這之中,AI 的運用扮演很關鍵的角色,如何將 AI 應用到上述各層面並實際執行,是許多企業面臨的挑戰,有哪些要點是執行 AI 專案時需特別留意的?(責任編輯:賴佩萱)
作者:若水 AI 資料資料處理部負責人 簡季婕
2020 年,突如其來的新冠肺炎疫情(Covid-19)改變了許多產業的命運,同時加速推促 AI 落地的速度,AI 人工智慧的應用將成為企業的新日常。
若水 AI 資料服務團隊本著為臺灣 AI 應用落地盡份心力的初衷,順著這波改變,推出全新系列內容:與機器學習(ML : Machine Learning)、AIOps 智慧運維(Artificial Intelligence for IT Operations)有關的實用文,分享各界專家在每一天如何持續營運、優化 AI 架構以及資料處理的基本功。
【若水導讀】AI 專案順利通關的三個絕招:
1. AI 資料來源要多元,避免學習偏誤
2. 標註前,請先建立客觀的 AI 資料標註(Data Annotation)原則
3. 讓 AI 人工智慧成為組織的共同語言,會更容易成功
企業都想做 AI,但實際上沒那麼簡單
根據《臺灣人工智慧學校 AI Academy Taiwan》2019 年針對臺灣各大產業 1,095 位業界校友的調查統計,成功導入 AI 人工智慧的臺灣企業僅占 20%。放眼國際,許多全球知名企業的 AI 專案也慘遭滑鐵盧:
Google 在泰國落地測試智慧醫療失敗,拖慢醫療流程;美國杜克大學發佈的 PULSE 演算法誤將歐巴馬的頭像還原為白人,引發種族歧視爭議。
在日本,軟銀(Softbank)社長孫正義原本打算以 AI 機器人取代銷售人員,沒想到 AI 機器人無法應付實際場域的複雜性,計畫負責人只好承認失敗:「我們把機器學習(Machine Learning)想得太簡單了」。
AI 專案難實際執行,問題出在哪?
若水經手過臺灣、日本超過 200 個的 AI 資料處理專案,從橫跨各大產業領域的專案經驗,整理出企業 AI 之所以無法順利落地的四大原因。
1. AI 模型訓練過程中沒有加入實際場域的資料
無論是剛導入 AI 而產生資料處理需求的新手企業,還是已有 AI 專案經驗、為了 retrain 模型再度找上若水的老手企業,都曾經在同一個地方卡關:AI 資料標註品質有做到位元,但 AI 模型卻無法應用落地 。
為什麼?
原因在於,客戶並未以「實際場景」的資料來進行 AI 模型訓練。
現在市面上有許多開放資料集(Open Dataset)或是免費的商用網路圖片,企業通常會優先使用這些免費資源進行 AI 資料標註(Data Annotation)讓機器學習,但是放到實際場域測試後,經常發現 AI 模型成效不佳,無法適用於實際場景,最終還是需要回過頭再進行第二次模型訓練(Model Training)。
因此 在 AI 專案開始前,建議企業首先需要在內部建立資料資料流(Data Pipeline),而在收集資料時,不只使用開放資料集(Open Dataset),也須確保有使用符合實際應用場景的資料來訓練 AI 模型,全盤考量資料類型、角度等多元性,避免機器學習偏誤 。
2. AI 資料標註原則定義不夠客觀
與企業工程師對接 AI 資料處理需求時,當我們詢問這批人臉辨識(Face Recognition)的 AI 資料標註的原則是什麼,常常會接到諸如此類的回答:「頭太小的話,就不要標註數據」。
一般人的邏輯覺得很合理的事情,對於機器學習(Machine Learning)來說卻是一大挑戰。 機器學習需要知道的是趨近「絕對客觀」的原則 ,例如,所謂的頭太大、太小,換算成具體數值會是幾乘幾大小的 pixel?如果圖片背景融色或模糊,也需要標註起來嗎?
一旦 AI 資料標註原則不夠客觀,AI 模型很容易隨著人的「主觀認定」來學習,當專案換了一位工程師,機器學習出來的效果可能也會跟著變 。在我們的經驗,原則的訂定最好透過「對話」,藉由反覆詰問,才能加快釐清目標。有了歸納、定義出客觀的 AI 資料標註原則。就會加快模型學習(Model Learning)成效。
為了清楚定義圖片融色或模糊的問題,我們採用國際照明委員會(International Commission on Illumination)訂定的 Delta E 標準,和影像(圖像)品質評估標準 BRISQUE,和客戶確認彼此認知是否一致。
根據國際標準,人的肉眼能分辨得出來的色差,至少會在 Delta E 值 2 以上。所以,當一張影像測出來 Delta E 值小於 2,就表示這張圖的融色程度太高,無法標註。
假如客戶希望「太模糊的圖片不要標註」,團隊也會根據 BRISQUE(影像品質評估標準)的標準,輸出不同模糊指數的圖片,請客戶確認所謂的模糊,具體來說是 70% 還是 80%。
3. AI 模型訓練(Model Training)沒有循序漸進
以肢體行為辨識(Posture Estimation)為例,Coco Dataset 從一開始只辨識人體 7 大主要關鍵點(Key Point),後來逐步發展成 25 點,甚至快 40 點,有些客戶會希望若水 AI 團隊可以一次就標註 40 個關鍵點,直接拿去機器學習(Machine Learning)。
說起來,機器學習和教小孩很像,一下子給太多的特徵點(Feature Points)反而會「揠苗助長」,導致 AI 模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶,一開始想用難度較高的 Segmentation 方式讓模型學習人的行為,但是人的行為百百種、語意切割(Segmentation)的變異度也高,就比較難學得好。
當這些客戶再回頭來找若水,通常會比較循序漸進,從小地方開始逐步改進 AI 模型。
4. 缺乏管理層的理解與支持
AI 熱潮讓許多企業趨之若鶩,然而 AI 要能夠順利落地,除了上述三項實務建議,企業管理層對於 AI 的認知和支持更是一大關鍵。
許多臺灣企業的 AI 數位轉型主導者,可能是傳統公司裡面有豐富資歷的 CTO 技術長或管理階層,對於 AI 人工智慧這個全新領域的概念,比較缺乏深度的理解,也沒有類似 AI 模型訓練和測試的相關經驗,從上述 4 個原因去追尋難以落地的根源,或許能有所助益。
資料來源:https://buzzorange.com/techorange/2021/02/04/ai-project-difficulties/?fbclid=IwAR04ZC1-1MquyCObEI5HIfTKtV-OkcfxL_R8vRin4YgQMl8cnhS_6aM59vU
google dataset 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
2020.12.09 by 若水AI Blog
企業導入AI似乎已成為一種趨勢,但是訓練AI模型,需要多少數據?其背後的商業命題與成本又該如何解決?帶你來一起窺探AI專案背後的秘密!
企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?
訓練一個AI數據模型,需要多少數據?
訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度 、 AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。
因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。
但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。
簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。
一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)
上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。
我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。
增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。
數據哪裡來?發展AI人工智慧之前,先建立數據流
先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。
AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。
發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。
數據不夠或太多怎麼辦?
Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。
如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。
POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。
如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?
我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。
過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。
猜猜結果如何?兩次實驗的表現,只差異不到1%。
所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。
AI模型訓練,記得校準商業目標
企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值 。
所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。
比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。
最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。
上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。
很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。
另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。
如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。
AI數據小學堂:模型指標(metrics)
在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。
P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。
附圖:AI模型 若水國際
AI模型的POC概念驗證實驗怎麼做?
資料來源:https://www.bnext.com.tw/article/60440/ai-strategy-04?fbclid=IwAR1SOhjjGxypdGgOGfaBIl_a1IsZFJAQZ8J2aeDd98spbUfOdg7hiPQP7UA
google dataset 在 Python 資料科學與人工智慧, profile picture - Facebook 的推薦與評價
【 Google Dataset Search 推出正式版】 經歷一年多的測試版,Google Dataset Search 終於推出正式版,收錄了大約2500 萬個資料集! ... <看更多>
google dataset 在 Google Research Datasets - GitHub 的推薦與評價
Conceptual Captions is a dataset containing (image-URL, caption) pairs designed for the training and evaluation of machine learned image captioning systems. ... <看更多>