唐嘉宏醫師︱悠悠我心思: 小筆記：機器智能與人類行為

舊時代用聽診器，新時代用智能機器

這次去人工智慧/資料科學年會，第一天的演講我鎖定的是「機器智能與人類行為–跨領域決策分析於醫療應用」這個題目。這是清大電機的李祈均老師，介紹他跟各大醫院合作的「跨領域人工智慧應用研究」。

要瞭解超級複雜的人體/人類行為，我們會先透過各種途徑 (聲音、表情、影像檢查、寫出來的文章) 收集，整合處理這些訊號，用人工智慧演算法找出其中的模式規則，最後幫助醫師決定要如何治療。

李祈均老師介紹了四個有趣的成果，涵蓋三個方向：

量化高維 → 輔助專家診斷
計算行為 → 評估疾病風險
計算行為 → 量化內心感受

7 秒鐘–人工智慧之血癌診斷輔助

在診斷血癌的時候，有個叫做流式細胞儀的東西，是先培養抗體、用雷射光照射、收集散射和螢光資料、然後專業醫師用肉眼去觀看分析，做出診斷。

但這些資料的分佈，可說是「比立體還要立體」，也就是所謂「高維度資料」。這就像瞎子摸象一樣，每個瞎子只能摸到一部份；人很難用眼精直接看清楚高維度資料，只能先投影到各種二維平面上 (每種平面圖觀察到全貌的一部份)，再來尋找模式做出診斷。在這裡，機器學習就有了發揮的地方。

結果做出來，在急性骨髓性白血病 (AML)、骨髓增生異常症候群 (MDS) 的診斷上，人工智慧模型拿來區分正常/異常，可以達到 97.0% 的準確率。在急性淋巴性白血病 (ALL) 的診斷上，模型的曲線下面積 (area under the receiver operating characteristic curve, AUC) 達到 0.92 (PS.這個值是0-1，越接近1表示越準)。

而且用機器分出正常 / 異常之後，分析他們「整體生存」、「無復發生存」狀況的存活曲線真的都有差異。

反正就是很準就對了，而且醫生來做要 20 分鐘，電腦來做只要 7 秒鐘，可以加速輔助診斷。

醫病行為–大型資料庫疾病風險人工智慧決策分析

臺灣的健保資料庫，裡面包含各種醫療行為、費用申報的資料。而老師切入的角度，是把它當做全人口「醫病行為」的展現。

每個人自覺不舒服而去就醫、醫師判斷而做出診斷、給予特定的藥物劑量和其他治療。在預測未來一個人會不會得到某個疾病時，這些過去的大量「醫病行為」資料可能都有意義。

過去當然有研究，根據學理做出一些模型、預測某些疾病的發生；但目前很少人用機器學習的方式來建立模型，也不知道會不會比較準。

於是他們選了一個病「中風」來做預測，找了 2003 年大約 80 萬人的資料，抽出前面 3 年的各種特徵 (性別、年齡、各種就醫費用、診斷、用藥)、建立模型、預估之後五年中風的危險性。

用 DNN 和 GBDT 演算法做出模型，結果模型的 AUC 是 0.92，又是非常準！而且，準確度打敗了過去所有文獻做出的模型！

用已有的醫病行為資料，不需要再去做問卷，就可以做出預測，非常方便 (但也要病人同意，還有政府同意釋出資料才行)

相由心生–用聲音和表情來評估疼痛程度 (自動化急診疼痛指數評量)

如何讓 ~~健身教練~~ 別人知道你有多痛？目前 Numerical rating scale (NRS) 這種測量方法，是詢問一個人「自己覺得」疼痛程度在零到十分當中是幾分 (自己想像中最痛的程度，當做是十分，不痛是零分)。

如果我們不派一個人去詢問，而是用機器，規模化、一致性、自動化去測量呢？(適用於人山人海的急診室)

機器學習在這裡，就出現應用的機會。李老師跟急診合作，收錄三百多人的影片，把「說話聲音」進行深度聲音特徵學習(用 LSTM-AE)、「表情影像」進行影像特徵學習(用CNN & FACS)，做出判斷模型，和問出來的疼痛程度做比較。

做出來的結果，如果只要求辨識高度 / 低度疼痛，機器用「聲音加表情」來判斷可以達到 80.2% 辨識率。如果要辨識高 (7-10分) / 中 (4-6分) / 低度 (0-3分) 疼痛，機器用「聲音加表情」來判斷可以達到 60.2% 辨識率 (都比單獨用聲音、單獨用表情的辨識率更高)。

牛頭馬嘴–自閉症類群症狀分析與診斷

像自閉症和其他許多精神疾病，有些診斷準則是針對「行為」訂定。然而，所謂「社交行為」不佳，對話時眼神飄移，除了讓專業醫師來判斷之外，有沒有可能用機器來測量呢？

「精神」是一種高維度的資料，可以投影到行為、眼神，當然也可以投影到文字上面。有一種測驗是針對寫出來的文字，觀察比較「自閉症」和「一般小孩」看過同一個童話之後寫下來的故事內容，我們可以發現自閉症小孩文章的邏輯連貫性較差。

這時候換機器學習出場了。用長短期記憶類神經網路 (long short term memory, LSTM) 衍生出來的方法，最後得到未加權平均辨識率 (unweighted average recall, UAR) 是 0.92。這也比之前有關邏輯連貫性的模型更準。

另外，他們還分析自閉症診斷觀察量表 (Autism Diagnostic Observational Schedule, ADOS) 施測時的錄影資料，嘗試用機器區分出典型自閉症、高功能自閉症和亞斯柏格症。

總之，第三和第四個例子都是用機器計算的方法，來輔助我們量化和分類內在的病理狀態。

感想

其實精神科有時候會被批評「太過主觀」，靠醫師的會談就判定一個人。多年來，科學家和醫師一直努力研究改進診斷系統，我認為超級複雜的人類行為/內心，或許可以利用機器學習，讓我們對它有更量化的理解。

而李老師所展示的三個方向，更快(把人類難以快速觀察判斷的高維度資料，用機器快速分析)、更方便(已有的大型資料庫就做出良好預測)、更具體(把內在感覺/病理狀態量化)，都很令人興奮。

真期待更多分析工具的時代。也如同李老師最後的結論所說，人工智慧、跨領域合作……這些東西雖然新潮，但跟古老的顯微鏡一樣，都不只是讓我們看得更清楚而已，還能夠幫助我們開發出對社會有意義的科技應用。

PS.李老師年初有一場類似主題的演講投影片可參考。

其他參考文獻：

Chen, C. P., Tseng, X. H., Gau, S. S. F., & Lee, C. C. (2017). Computing Multimodal Dyadic Behaviors during Spontaneous Diagnosis Interviews toward Automatic Categorization of Autism Spectrum Disorder. Age (Avg/Std), 14, 3-08.

Hung, C. Y., Chen, W. C., Lai, P. T., Lin, C. H., & Lee, C. C. (2017, July). Comparing deep neural network and other machine learning algorithms for stroke prediction in a large-scale population-based electronic medical claims database. In Engineering in Medicine and Biology Society (EMBC), 2017 39th Annual International Conference of the IEEE (pp. 3110-3113). IEEE.

Tsai, F. S., Hsu, Y. L., Chen, W. C., Weng, Y. M., Ng, C. J., & Lee, C. C. (2016). Toward Development and Evaluation of Pain Level-Rating Scale for Emergency Triage based on Vocal Characteristics and Facial Expressions. In INTERSPEECH (pp. 92-96).

網頁

2017年11月15日星期三

小筆記：機器智能與人類行為–跨領域決策分析於醫療應用

7 秒鐘–人工智慧之血癌診斷輔助

醫病行為–大型資料庫疾病風險人工智慧決策分析

相由心生–用聲音和表情來評估疼痛程度 (自動化急診疼痛指數評量)

牛頭馬嘴–自閉症類群症狀分析與診斷

感想

網頁

2017年11月15日 星期三

小筆記：機器智能與人類行為–跨領域決策分析於醫療應用

7 秒鐘–人工智慧之血癌診斷輔助

醫病行為–大型資料庫疾病風險人工智慧決策分析

相由心生–用聲音和表情來評估疼痛程度 (自動化急診疼痛指數評量)

牛頭馬嘴–自閉症類群症狀分析與診斷

感想

2017年11月15日星期三