AI如何從大數據中學習預測疫情

專家積極用AI分析疫情大數據,透過不同面向蒐集到的數據,是訓練出準確AI預測模型的基礎。 圖/摘自Pixabay
專家積極用AI分析疫情大數據,透過不同面向蒐集到的數據,是訓練出準確AI預測模型的基礎。圖/摘自Pixabay

文/李政德 國立成功大學數據科學研究所副教授

因新冠肺炎疫情,各地學者正積極用AI分析疫情大數據,藉此了解並預測新冠肺炎在各面向的影響。究竟運用AI可做到哪些疫情的預測?應收集的資料有哪些種類?研究人員設立預測的目標後,AI能從大量數據中學習最有助於預測的線索與規律,用於對未知新資料產生準確預測,此「訓練模型」的過程有哪些值得注意的地方?

運用AI深度學習協助預測疫情大致可以有三個面向:

一、地理空間的擴散:預測即將爆發疫情的地區,供各國參考旅遊警示,大眾亦能提前防範。

二、時間維度的演進:預測各地未來的確診或死亡人數,輔助各國政府調整不同程度的超前部署措施。

三、防疫策略的制定:推薦適合不同國情的防疫措施,讓各地得以採用最有效降低感染人數的防疫方式。

訓練AI相當仰賴模型訓練的輸入資料,從不同面向蒐集到的數據,是訓練出準確AI預測模型的基礎。資料的數量規模、多樣性、完整度、即時性以及細緻程度等,皆會影響AI模型的設計並決定預測準確性。

疫情數據的類型可包含: (一)交通數據:包含航班、乘客分布、交通流量等。病毒在全球擴散主要透過航空與陸地交通,這些數據能反映病毒如何在世界各大城市間流動,讓AI學到病毒傳播的時間與空間擴散趨勢。

(二)新聞資訊:大眾傳播媒體的新聞文字,描述防疫事件的始末及政府相關單位的最新作為,可讓AI學習疫情進展的階段、政府的作為與大眾的反應。

(三)社群媒體:社群媒體如Facebook、Twitter、Instagram與PTT含有最即時的資訊,AI可從中學到病毒擴散帶來的各種影響,即時預測社群中贊同執行政策與反對的聲量、發現防疫資訊的觸及率,與設計有效廣播即時資訊的機制。

(四)醫療數據:基本數據包含醫院的分布、規模、設備狀況及醫師量能。診療相關數據則包含案例感染到死亡或出院追蹤的完整過程,這些數據可讓AI學習病程演變、病毒演化以及醫療行為之間的關聯。藉此可預測疫情爆發的地區,與確診人數趨勢,也能輔助尋找武漢肺炎的疫苗。
 
更多複雜的非結構化資料。想訓練出能有效學習結構化與非結構化資料的AI,須設計客製化的深度學習神經網路架構。因為數據分散各國,各國醫療體系、開放資料庫的欄位格式、資料公開的程度,以及數據性質皆不相同,很難完整收集到上述資料。且因疫情瞬息萬變,訓練AI模型前須先統一欄位、校正時間軸、填補缺失值、萃取並定義資料特徵,非常耗時,不太可能用單一AI技術同時融合這些異質資料。應設計專門的深度神經網路架構,讓AI自動學習出能幫助預測的關鍵線索,預測結果也較準確。此外,為驗證AI技術的效能,可以分階段訓練及驗證深度學習模型,例如使用特定地區在2020年1月的數據來訓練模型,預測2月疫情爆發或趨緩的城市以及確診人數,再使用2020年2月的數據來調整模型並預測3月疫情,接著加入3月的數據訓練,進一步修正模型,來預測4月的疫情,據此動態調整訓練模型並驗證AI的預測結果。

由於疫情擴散與演進隨著國情、地理或氣候狀況而不同,可用人文、地理與氣候資訊訓練模型,讓AI學習環境訊息對預測的影響。因為時常難以收集到全面的資料訓練AI模型,此時可用不同城市所能蒐集到資料的最大交集,但要特別注意,不能納入未使用的數據來解讀AI預測疫情的結果。

>>訂閱名家評論周報,關心全球財經大小事

延伸閱讀