打造「聊」癒系機器人!看圖說故事 AI也略懂略懂
信傳媒
研之有物
2020年11月8日 下午1:24
看圖說故事對人類來說,是輕鬆好玩的事,但對 AI 來說,卻是巨大挑戰,因為這代表 AI 必須看出圖中有哪些物件、理解圖片意義、能夠生成文句,還要看懂圖片間的因果邏輯。在中研院資訊科學研究所古倫維副研究員的努力下, AI 看圖說故事的能力有了很大的進展。她的模型有什麼獨特之處呢?跟著研之有物一起來瞧瞧!
俗話說得好:「發文不附圖,此風不可長。」不論你發的是爆卦文、閒聊文還是業配文,有圖更容易晉身流量熱文。不過近年來,社群網站發文的風向漸漸有了改變,從「發文附圖」轉變成「發圖附文」,我們總是先來一張照片,再配上相應的描述文字。接下來,我們的發文習慣還會怎麼改變?
或許,未來你拍下一張照片上傳社群網站,電腦就會自動「看圖說故事」,為你的照片腦補一段說明文字,節省你的思考時間。
讓電腦學會「看圖說故事」的伎倆,正是中研院資訊科學研究所的古倫維副研究員正在鑽研的主題之一。她的主要研究領域是人工智慧( AI )的自然語言處理,在因緣際會下,接觸到一個 AI 看圖說故事的競賽: Visual Storytelling ( VIST ),開啟了她對 AI 看圖說故事的興趣。
電腦如何學會「看圖說故事」?目前學界使用「機器學習」,簡單來說,就是讓電腦從大量的圖文搭配組合,從中學習看到怎樣的圖片,應該說出怎樣的故事。古倫維說:「其實一開始我們做得並不特別好。我們跟其他參加競賽的人一樣,用機器學習的方法,把圖和對應的文字丟進電腦,讓機器自己學習最佳的圖文搭配。然而機器學習幾乎是軍備競賽了!誰的電腦計算能力更強,得到的模型更複雜,生成的文字就會更好。」
先選角、打草稿,再寫故事
在軍備競爭不足的情況下,古倫維決定採取不同的策略:「既然完全由 AI 看圖說故事的效果不夠好,能不能在故事生成的過程中,有一個人類可以介入改善的步驟。」所以她把原來的做法分成了兩個階段,先從圖片抽取語意,接著再生成文字故事。
語意抽取,是指先從個別圖片中選出用來說故事的概念(如同電影選角),用知識庫找出概念之間的關係,建立圖片的關聯,再為這些圖片擬定最好的草稿(如同電影故事大綱)。
重點來了!在「選角」階段, AI 會先以機器學習的結果,找出最適合說故事的「角色組合」,尤其是面對連續圖片。這就好比張曼玉、梁朝偉、成龍三個演員,前兩個主要演愛情片,第三個以武打戲為主,如果第一張照片選了張曼玉,第二張照片應該選梁朝偉,生成的故事會比較好看。
但目前 AI 選角部分還不夠靈光,有時仍會發生如「張曼玉配成龍」的選角名單。古倫維的兩階段設計讓人類可在「選角」階段介入修改。實際例子如:圖片中有小男孩、天空、腳踏車三個概念。AI 從上圖抽取出的概念可能是「小男孩」、「天空」,最後生成的故事可能是「一個小男孩在天空下」……滿無聊的。但人類可以把「天空」改成「腳踏車」,機器最後就可能生成「一個小男孩騎著腳踏車。」嗯,是不是比較有故事性了?
最後,人類再將修改後的選角和故事大綱,交給 AI 產生整個故事。這種「先選角、打草稿,再說故事」的方式,最後產生的故事比較不會無聊或是不合理,更接近人類說出的故事。
知識庫,AI 想像力的補充包
為了增加 AI 的想像力,古倫維也在模型中納入「知識庫」,幫 AI 增加故事的知識。例如圖片中有人與馬,如果沒有知識庫,AI 可能只能生成「有一個人與一匹馬」這種平淡的句子。但知識庫可以補充人與馬關聯的知識,包括人可以騎馬、養馬等等,讓 AI 有機會說出「有一個人騎著自己養的馬」比較具故事性的句子。「當然 AI 也可能從大量的故事中以機器學習取得『很多人都會騎馬、養馬』的知識。但知識庫的最大功用,就是直接提供這個知識給 AI ,縮短學習歷程。」 古倫維解釋。
更重要的是,知識庫讓 AI 更容易解讀出圖片之間的關聯。如 VIST 競賽的題目就是包含了五張圖片的圖組,在知識庫的協助下, AI 比較容易找出各別圖片的概念之間的關聯,說出的故事會比較連貫,具有因果關係。
AI 是完全沒有想像力的,但若透過知識庫給它知識,這些知識在故事中呈現出來的,就像是 AI 的想像力。
巧妙切開「語意抽取」與「生成文本」
兩階段生成故事的方法還有一個優點,就是可善用大量的「圖片辨識」與「故事文本」資料庫,避開「圖文搭配」資料的缺乏。
現今的「圖片辨識」技術和資料庫非常成熟,可以精準的從圖片中抽取出各式各樣的概念。另一方面,說故事是人類從古至今不斷從事的活動,留下了大量的「故事文本」。相較之下,看圖說故事的「圖文搭配」資料量卻相當少,需要有人刻意去蒐集圖組、撰寫文字,古倫維說:「這種圖文搭配的資料必須人工建立,能有一萬組就很厲害了,但這個數量對於機器學習來說卻是遠遠不夠的。」
古倫維則把生成故事的過程拆成「語意抽取」與「生成文本」兩個階段,第一階段可利用精熟的圖片辨識技術和資料庫,抽取故事概念;第二階段再運用故事文本資料庫,讓機器學習如何將第一階段抽取(並由人類修改過)的概念,組合成漂亮的故事,巧妙避開了「圖文搭配」資料不足的難題。
把「語意抽取」與「生成文本」切開的話,兩個階段都可以利用幾千萬筆的既有資料,供機器學習。
腦補,讓機器更有溫度
說了半天,但 AI 會看圖說故事,到底能幹嘛?難道只是幫貼圖寫寫圖說?以研究的層面來說,如果 AI 能看圖說故事,代表 AI 在理解圖片、文字分析及因果邏輯等方面,都達到一定的水準,代表 AI 語言能力更加接近人類。在實際應用上, 可以為圖文創作者提供故事草稿,或是對於常常需要撰寫廣告文案、出差報告的人,能夠很快從圖像生成文本,人類只要略做修改潤飾即可 (小職員計畫通!)。
但更重要的是,機器人也能因此更有溫度!古倫維與臺大人工智慧與機器人研究中心的傅立成教授合作,希望透過 AI 看圖說故事的技術,讓居家照護機器人更有「人味」,會主動關懷人類。因為居家照護機器人在家中「看見」的一切,其實就是一張張的圖, AI 可以透過這些「圖」形成可能的故事,再轉化為暖心的問句。
想像一下,未來居家照護機器人看見老人家在廚房,故事劇情可能是「他要煮飯」,於是問出:「今晚想吃什麼?需要幫忙嗎?」當老人拿出相簿緬懷過去,AI 也能從舊照片解讀可能故事,轉化成聊天的問句:「照片中的這個人是誰啊?你們去哪裡玩?」還能變身孩子最愛的說故事姊姊!AI 可能從儲存的繪本資料庫中,隨機抽出不同圖畫重新組合,說出全新的故事。
會看圖說故事的 AI ,可以從眼前的情景連結到事件或情感,就像人類的腦補一般,而這些腦補就是故事。
如此一來,居家照護機器人不再只是被動的處理人類需求,相反的,「說故事的能力賦予了 AI 機器人找話題的功能。」古倫維笑著解釋,機器人從此不再詞窮,可以主動關心人類,與人類互動聊天,讓機器人變得溫暖許多。看來 AI 看圖說故事,不只是寫寫圖說、幫忙解決麻煩的出差報告,在不遠的未來,更是拉近我們與機器人距離的關鍵所在呢。
附圖:AI 看圖說故事的能力,可讓照顧居家照護機器人了解眼前的生活情境,具有找話題的能力,變得溫暖許多。(圖片來源/研之有物授權使用,下同)
中研院資訊科學研究所的古倫維副研究員,主要研究領域是人工智慧( AI )的自然語言處理,現正開發如何讓 AI 不只會說故事,還會看圖說故事。
古倫維的故事生成模型將產生故事的過程分成「語意抽取」及「故事生成」兩個階段。 圖說重製│黃曉君、林洵安
電腦看圖說故事的範例。No KG 代表機器在不添加額外知識時所產生的故事,Visual Genome 與 Open IE 古倫維團隊用兩個不同的知識庫分別產生的故事,GLAC 是除了古倫維的模型外目前成果最好的模型。由上可知,知識庫的確能幫助故事的上下文連結。最後的 Human 是真人所寫的故事,包含了許多圖片中沒有的知識,甚至精神性的內容。
資料來源:https://tw.news.yahoo.com/%E6%89%93%E9%80%A0-%E8%81%8A-%E7%99%92%E7%B3%BB%E6%A9%9F%E5%99%A8%E4%BA%BA-%E7%9C%8B%E5%9C%96%E8%AA%AA%E6%95%85%E4%BA%8B-ai%E4%B9%9F%E7%95%A5%E6%87%82%E7%95%A5%E6%87%82-052415130.html
文本情感分析 模型 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP
文本情感分析 模型 在 李開復 Kai-Fu Lee Facebook 的精選貼文
近幾個月,在AI賦能未來醫療的思考特別多,受美國「WIRED連線」雜誌邀請撰寫了一篇專欄文章。我相信十幾年後,不少國家和地區的醫療體驗在AI賦能的作用下將發生根本性改變。
原文刊於「WIRED連線」雜誌英文官網:
Covid-19 Will Accelerate the AI Health Care Revolution
https://www.wired.com/story/covid-19-will-accelerate-ai-health-care-revolution/
中文翻譯來自創新工場微信公眾號 2020-5-22
新冠大流行將加速醫療AI革新
—————————————
2020年元旦前夜,一家位於加拿大多倫多市的人工智能(AI)企業BlueDot捕捉到一些異常:中國武漢市海鮮市場周邊出現多起罕見肺炎病例,BlueDot迅即反應,運用自然語言處理、機器學習等技術,結合大數據和定位追踪,迅速向合作的政府部門和公共衛生機構客戶傳送警報並報告擴散狀況。BlueDot所監測到的異狀,正是數月後撼動全球的新型冠狀病毒肺炎(Covid-19),這比世界衛生組織首度公開警示新冠病毒的時間還要早上9天。
BlueDot的AI平台示範了人工智能技術對重大疫情能起到早期預警的功用,過去幾個月裡,AI在這場全球抗疫戰的許多方面發揮了獨特作用:從疫情預測到篩檢,從接觸警示到快速診斷,從前線無人配送到實驗室藥物研發,人工智能助力防疫派上了不少用場,為特定場景應用賦能。
隨著疫情在全球蔓延,AI技術的創新應用也在各地相繼落地。在韓國,基於地理位置的信息傳遞已經成為控制病毒傳播的重要工具,當人們靠近確診病例時,就會收到基於位置的緊急信息提醒。在中國大陸,阿里巴巴推出的AI算法能夠在20秒內診斷出疑似病例(比人類檢測快了近60倍),準確率高達96%。無人配送車輛很快被投入到人類難以承受的場景,代替人類執行高傳染風險的運輸任務。湖北、廣東等省份的多家醫院相繼使用機器人為病人或被隔離家庭運送食物、藥品和物資。而在美國加州,電腦科學家正在研發能遠程檢測獨居老人健康情況的系統,一旦老人出現身體異常症狀,系統就會發出即時警報。
不過,目前人工智能在公共衛生體系的應用仍顯零散也未成體系。坦率說,過去四個月內,AI在抗疫之戰中的表現並不十分突出,我最多只能給它打分“B-”。新冠大流行暴露了我們的醫療系統的脆弱性:預警響應不充份、通報信息不精確、醫療物資分配不均、醫務人員超負疲憊、醫院病床緊繃、疫苗研發週期長等諸多痛點。當然,AI的零散表現也有客觀原因:醫療體系可說是現代社會各類運轉體系中最為複雜、陳舊不堪且難以變通的一種;且在新冠疫情襲來之前,我們並沒有真正意識到醫療體系問題的緊迫性,沒有提前採取相應的技術預防措施;最為關鍵的是,我們缺少建構AI解決方案所需的大數據。
把目光看向未來,我看到以下兩個AI賦能醫療的樂觀因素。
首先,作為AI燃料的醫療大數據已被激活。舉例來說,機器學習數據科學平台Kaggle組建了新冠病毒開放研究數據庫,名為CORD-19。它將相關數據進行彙編,並把最新研究集中收錄,匯總的格式可被機器讀取和解析,以便於AI進行機器學習。至今這個數據庫收錄了12.8萬篇包含Covid-19、冠狀病毒、SARS(非典型肺炎)、MERS(中東呼吸綜合症)等關聯術語的醫學專業學術文章。
其次,眼下全世界的醫學專家和電腦科學家都將精力集中在解決疫情問題。 X大獎基金會創始人彼得·戴曼迪斯(Peter Diamandis)估計,全球現在有多達兩億名的醫師、科學家、護士、技術專家和工程師投入防治冠狀病毒的相關研發中,他們正在進行數以萬計的實驗,並以「前所未有的透明度和速度」共享信息。
3月16日Kaggle發起「新冠病毒研究挑戰」,匯集與疫情相關的大量信息,包括病毒的自然歷史、傳播和診斷方法、以及從過往流行病學研究中汲取的經驗教訓,幫助全球各地衛生機構及時掌握最新情況,以做出基於數據的分析決策。該項目發布後的五天內被瀏覽超過50萬次,下載量逾1.8萬次。在大陸疫情爆發後不到一個月,阿里巴巴便推出了一種AI算法,該算法基於5000多個新冠肺炎確診病例進行訓練,並關聯到治療後續諸如肺部白色陰影縮小等的成效追踪。隨後,阿里巴巴將其云端AI平台向全球醫療專業人員開源,與合作夥伴聯手部署更大批量的匿名數據,推出包括疫情預測、CT影像分析、冠狀病毒基因組測序等模組。
據估計,現今全球醫療數據的規模每隔幾個月就翻一倍。 2019年一份覆蓋19個國家AI醫療市場的研究估計,AI醫療市場的年複合增長率為41.7%,從2018年的13億美元將增長至2025年的130億美元,主要分佈在六大領域:醫院工作流程、可穿戴設備、醫學影像和診斷、診療計劃、虛擬助手、以及最重要的藥物研發,新冠疫情期間浮現的種種需求,將加速AI賦能醫療的場景落地。
在後疫情時代,我期待AI將加速融入醫療體系,賦能並推動醫療改革。其中深度學習(Deep Learning),即以一種高效方法運算海量、多維數據的能力,是AI結合醫療最為可期的機遇之一。深度神經網絡(Deep Neural Networks)作為AI的一個子領域,已經被用於醫學掃描、病理切片、眼科檢查甚至結腸鏡檢查,以得出準確而快速的算法判讀。十幾年後,不少國家和地區的醫療體驗在AI賦能的作用下將發生根本性改變。
AI賦能醫療,首先能簡化及優化現有的醫療流程,例如醫院的作業流程,保險履約的繁複流程。將AI與RPA(Robotic Process Automation 機器人流程自動化)結合,可對某項工作流程進行智能拆解及優化,進而大大提高醫療系統的運營效率,預約看診、保險理賠及其他流程性工作都會得到效率提升。AI還能加快早期診斷信息的收錄並實現自動化,AI技術所能處理的文本、語言、數字的體量,無論在數量上還是精度上都是機器級別,遠非人類所及。
有了充份的醫療大數據作為基礎,AI還能為每個人或者每個群體建立健康數據基準量表。當我們掌握個體健康數據,就可以根據跟踪動態數據的波動變化,進行數據驅動的診斷,並對潛在大流行疾病的徵兆進行早期追踪研判。然而,再先進的技術系統要做到真正有效,勢必需要與既存的公共衛生警示和匯報機制形成高效鏈接,此類信息斷層即是新冠疫情在早期爆發期間存在的具體缺失。
再上一個層次的AI賦能體現在助力新藥研發、基因組測序、幹細胞、CRISPR(基因編輯)等醫學突破方面,AI模型和算法應用都有其用武之地。在製藥行業,研發一種新藥往往需要付出高昂的投入,某次成功前必有多次付諸流水的失敗試驗,也連帶消耗巨大的時間和金錢成本。現在,科學家們可使用AI機器學習來模擬上千個變量,測試它們的複合效應會對人類細胞反應產生何種影響,這類AI新藥研發的技術已被用於新冠病毒疫苗和其他療法。創新工場所投資總部位於香港的AI藥物研發公司Insilico Medicine是首批對新冠病毒快速響應的企業之一,這家公司利用生成式化學AI平台設計出新藥物小分子,以複製主要病毒蛋白為靶標,早在2月5日便公佈了這些小分子結構。 AI為新藥發明開闢了一個新時代,用人工智能技術來換取藥品研發週期的時間和成本,整個製藥行業勢將迎來翻天覆地的變革。
不久的將來,隨著醫療科學和電腦科學進一步融合,我們將進入一個全面自動化的AI時代,到時人們可以通過可穿戴設備、生物傳感器、智能家居檢測設備等來確保自身和家人的健康。可穿戴設備和其他物聯網設備的數據質量和多樣性大幅提高,將能產生一個有效的良性循環。穿越到未來,下一場疫情在大範圍蔓延之前就應該能夠被跟踪、追溯、攔截並消滅無踪。
或許再過15年,許多人的家裡都會有AI個人助理照料我們,幫著解決全家人的日常健康所需。機器人或者無人機負責把我們的藥品送上門,如果需要進行手術或者外科治療,通常會由機器人操作,或由機器人輔助人類外科醫師完成。在未來,醫生和護士將把更多的精力放在機器無法勝任的任務上,醫療專業人員及富有同情心的護理人員,將同時具備護士、醫療技師、社會工作者、甚至心理諮詢師的技能。他們會使用經AI強化的診斷工具和系統,但更多的時間會與患者溝通,安撫他們的傷痛,為他們提供情感扶持。在我的想像裡,15年後的醫療健康場景可能是這個樣子的:
***
2035年一個冬季早晨,我醒來後就覺得有點喉嚨痛。我起身去洗手間,刷牙的時候,洗手間的鏡子通過紅外傳感器測量了我的體溫。刷完牙後一分鐘,我的私人AI醫師助理發出了警報,顯示我的唾液樣本部分指數異常,並在輕微低燒。 AI醫師助理建議我在家進行指尖探針採血。我在泡咖啡時,醫師助理返回了分析結果,判斷我可能是得了這個季節正在流行的兩型流感其中一種。之後,我的AI醫師助理建議,如果我覺得有必要聯繫家庭醫生的話,有兩個時間空檔可以跟她視頻通話。通話之前,家庭醫生已經收到我所有症狀的詳細信息,她給我開了一種減充血劑和撲熱息痛,一會兒無人機就把藥品送到我家門口。
***
當然,凡涉及到患者的醫療記錄,就得談談隱私和數據保護的關鍵問題。我認為,任憑有用的數據各自孤島式的存在、不善加利用、不從中提煉有價值的信息、不用以推動社會進步,是相當不負責任的做法。技術產生的問題應該由技術解決。隨著AI技術浪潮而出現的諸如數據保護等問題,應該有更為創新的技術方法來應對。
好消息是,近年聯邦學習(也被稱為分佈式學習)已經在數據保護上取得了顯著的進展。基於聯邦學習技術,患者的數據將永遠不會離開所在的醫療機構、醫院或個人設備伺服器等原始存儲設備,機器學習模型將在獨立的數據庫基礎上進行訓練處理,再進行後續整合。聯邦學習、同態加密,結合可信硬體執行環境等技術,將進一步確保數據的計算、傳輸、存儲過程能夠適配不同的隱私偏好,以因應不同國家與文化對於隱私保護的需求差異。
這次新冠肺炎疫情還驗證了一個事實:整體人類命運是共同體,人們對未來運用AI等先進技術共度難關寄予一致的期盼。歷史上,國際合作曾消滅了全球延燒的天花,也幾乎根除了小兒麻痺症。公共衛生無國界,控制及消除流行病是個毋庸置疑的共同目標。在醫學領域,每個國家都能從他國的研究基礎上學習受益並攜手並進,全球化的數據科學,將進一步幫助人類獲取對健康和疾病最為深刻、最為全面的洞悉。
AI有潛力協助我們為下一次疾病大流行做更充份的準備。這需要醫學專家、AI科學家、投資者和決策者傾力協作,也需要關注醫療保健領域的投資人為聰明的創業者和科學家注入新一波動能。
經歷這次疫情,我們應清醒地意識到,要將人類醫療體系推往新的高度,著實需要傾盡全球之力。
創新工場董事長兼首席執行官
李開復博士