2017年11月15日 星期三

小筆記:機器智能與人類行為–跨領域決策分析於醫療應用


舊時代用聽診器,新時代用智能機器

這次去人工智慧/資料科學年會,第一天的演講我鎖定的是「機器智能與人類行為–跨領域決策分析於醫療應用」這個題目。這是清大電機的李祈均老師,介紹他跟各大醫院合作的「跨領域人工智慧應用研究」。

要瞭解超級複雜的人體/人類行為,我們會先透過各種途徑 (聲音、表情、影像檢查、寫出來的文章) 收集,整合處理這些訊號,用人工智慧演算法找出其中的模式規則,最後幫助醫師決定要如何治療。

李祈均老師介紹了四個有趣的成果,涵蓋三個方向:

量化高維 → 輔助專家診斷

計算行為 → 評估疾病風險
計算行為 → 量化內心感受



 7 秒鐘–人工智慧之血癌診斷輔助



在診斷血癌的時候,有個叫做流式細胞儀的東西,是先培養抗體、用雷射光照射、收集散射和螢光資料、然後專業醫師用肉眼去觀看分析,做出診斷。

但這些資料的分佈,可說是「比立體還要立體」,也就是所謂「高維度資料」。這就像瞎子摸象一樣,每個瞎子只能摸到一部份;人很難用眼精直接看清楚高維度資料,只能先投影到各種二維平面上 (每種平面圖觀察到全貌的一部份),再來尋找模式做出診斷。在這裡,機器學習就有了發揮的地方。

結果做出來,在急性骨髓性白血病 (AML)、骨髓增生異常症候群 (MDS) 的診斷上,人工智慧模型拿來區分正常/異常,可以達到 97.0% 的準確率。在急性淋巴性白血病 (ALL) 的診斷上,模型的曲線下面積 (area under the receiver operating characteristic curve, AUC) 達到 0.92 (PS.這個值是0-1,越接近1表示越準)

而且用機器分出正常 / 異常之後,分析他們「整體生存」、「無復發生存」狀況的存活曲線真的都有差異。

反正就是很準就對了,而且醫生來做要 20 分鐘,電腦來做只要 7 秒鐘,可以加速輔助診斷。




醫病行為–大型資料庫疾病風險人工智慧決策分析



臺灣的健保資料庫,裡面包含各種醫療行為、費用申報的資料。而老師切入的角度,是把它當做全人口「醫病行為」的展現。

每個人自覺不舒服而去就醫、醫師判斷而做出診斷、給予特定的藥物劑量和其他治療。在預測未來一個人會不會得到某個疾病時,這些過去的大量「醫病行為」資料可能都有意義。

過去當然有研究,根據學理做出一些模型、預測某些疾病的發生;但目前很少人用機器學習的方式來建立模型,也不知道會不會比較準。

於是他們選了一個病「中風」來做預測,找了 2003 年大約 80 萬人的資料,抽出前面 3 年的各種特徵 (性別、年齡、各種就醫費用、診斷、用藥)、建立模型、預估之後五年中風的危險性。

DNN GBDT 演算法做出模型,結果模型的 AUC 0.92,又是非常準!而且,準確度打敗了過去所有文獻做出的模型!

用已有的醫病行為資料,不需要再去做問卷,就可以做出預測,非常方便 (但也要病人同意,還有政府同意釋出資料才行)





相由心生–用聲音和表情來評估疼痛程度 (自動化急診疼痛指數評量)



如何讓 健身教練 別人知道你有多痛?目前 Numerical rating scale (NRS) 這種測量方法,是詢問一個人「自己覺得」疼痛程度在零到十分當中是幾分 (自己想像中最痛的程度,當做是十分,不痛是零分)

如果我們不派一個人去詢問,而是用機器,規模化、一致性、自動化去測量呢?(適用於人山人海的急診室)

機器學習在這裡,就出現應用的機會。李老師跟急診合作,收錄三百多人的影片,把「說話聲音」進行深度聲音特徵學習( LSTM-AE)、「表情影像」進行影像特徵學習(CNN & FACS),做出判斷模型,和問出來的疼痛程度做比較。

做出來的結果,如果只要求辨識高度 / 低度疼痛,機器用「聲音加表情」來判斷可以達到 80.2% 辨識率。如果要辨識高 (7-10) / (4-6) / 低度 (0-3) 疼痛,機器用「聲音加表情」來判斷可以達到 60.2% 辨識率 (都比單獨用聲音、單獨用表情的辨識率更高)





牛頭馬嘴–自閉症類群症狀分析與診斷



像自閉症和其他許多精神疾病,有些診斷準則是針對「行為」訂定。然而,所謂「社交行為」不佳,對話時眼神飄移,除了讓專業醫師來判斷之外,有沒有可能用機器來測量呢?

「精神」是一種高維度的資料,可以投影到行為、眼神,當然也可以投影到文字上面。有一種測驗是針對寫出來的文字,觀察比較「自閉症」和「一般小孩」看過同一個童話之後寫下來的故事內容,我們可以發現自閉症小孩文章的邏輯連貫性較差。

這時候換機器學習出場了。用長短期記憶類神經網路 (long short term memory, LSTM) 衍生出來的方法,最後得到未加權平均辨識率 (unweighted average recall, UAR) 0.92。這也比之前有關邏輯連貫性的模型更準。

另外,他們還分析自閉症診斷觀察量表 (Autism Diagnostic Observational Schedule, ADOS) 施測時的錄影資料,嘗試用機器區分出典型自閉症、高功能自閉症和亞斯柏格症。

總之,第三和第四個例子都是用機器計算的方法,來輔助我們量化和分類內在的病理狀態。





感想



其實精神科有時候會被批評「太過主觀」,靠醫師的會談就判定一個人。多年來,科學家和醫師一直努力研究改進診斷系統,我認為超級複雜的人類行為/內心,或許可以利用機器學習,讓我們對它有更量化的理解。

而李老師所展示的三個方向,更快(把人類難以快速觀察判斷的高維度資料,用機器快速分析)、更方便(已有的大型資料庫就做出良好預測)、更具體(把內在感覺/病理狀態量化),都很令人興奮。

真期待更多分析工具的時代。也如同李老師最後的結論所說,人工智慧、跨領域合作……這些東西雖然新潮,但跟古老的顯微鏡一樣,都不只是讓我們看得更清楚而已,還能夠幫助我們開發出對社會有意義的科技應用。







PS.李老師年初有一場類似主題的演講投影片可參考。


其他參考文獻:


Chen, C. P., Tseng, X. H., Gau, S. S. F., & Lee, C. C. (2017). Computing Multimodal Dyadic Behaviors during Spontaneous Diagnosis Interviews toward Automatic Categorization of Autism Spectrum Disorder. Age (Avg/Std), 14, 3-08.

Hung, C. Y., Chen, W. C., Lai, P. T., Lin, C. H., & Lee, C. C. (2017, July). Comparing deep neural network and other machine learning algorithms for stroke prediction in a large-scale population-based electronic medical claims database. In Engineering in Medicine and Biology Society (EMBC), 2017 39th Annual International Conference of the IEEE (pp. 3110-3113). IEEE.


Tsai, F. S., Hsu, Y. L., Chen, W. C., Weng, Y. M., Ng, C. J., & Lee, C. C. (2016). Toward Development and Evaluation of Pain Level-Rating Scale for Emergency Triage based on Vocal Characteristics and Facial Expressions. In INTERSPEECH (pp. 92-96).