應用案例 | 數據分析+醫(yī)學——讓疾病無所遁形
從古至今,疾病的防預和控制始終是一個重大的挑戰(zhàn)。隨著科技的不斷進步,數據分析逐漸成為醫(yī)學健康領域中不可或缺的工具。數據分析不僅能幫助醫(yī)學專業(yè)人員更好地理解疾病的模式和趨勢,還可以協助患者對自己的健康狀況進行更加準確的判斷。那么數據分析是如何幫助醫(yī)學人員進行病情診斷的呢?我們通過一個具體案例一起來探討。
數據分析師帶你走進醫(yī)學前線
近年來癌癥已經成為全球很大的健康問題,高居所有死因的第1位。其中乳腺癌發(fā)病率呈逐年上升趨勢,躍居女性惡性瘤子的第1位(據估計已接近0.03%,即全球每1萬人就有接近3人患有乳腺癌)。但是,乳腺癌早期一般沒有明顯癥狀,多數情況下需經過多次、多項檢查才可能診斷出結果?;诖耍覀兛梢岳脵C器學習模型對病人的情況進行預測,及時檢測出早期癥狀,減少癌癥的致死率。
首先,我們來看此案例的數據情況(如下圖),原始數據樣本總數961個,字段包含序號、BIRADS等級、年齡、腫塊形狀、腫塊邊緣、腫塊密度、嚴重度。
遵循數據分析流程的個步驟,我們對案例進行逐步分析:
PART
01
數據探索和預處理
數據探索:
在這個階段,我們首先對數據進行描述性統計,通過描述性統計結果查看數據形態(tài)以及缺失值與異常值的情況。描述性統計結果如下:
數據預處理:
數據預處理需要根據描述性統計的結果以及后面模型對數據集的要求來進行處理,所以我們對數據進行了如下處理:
(1)缺失值處理:使用數據加工模塊對缺失值進行刪除。
(2)連續(xù)型變量離散化:對年齡字段使用變量離散化算法,降低規(guī)則復雜度,離散為三類,0類年齡段為0-44歲,1類年齡段為45-70歲,2類年齡段為71-100歲。
PART
02
模型構建和評估
在這個階段,我們需要明確解決目標問題會用到哪些算法以及那種算法。確定算法后就可以著手模型的搭建,Datahoop平臺簡化了我們構建算法的步驟,可以直接將數據帶入模型算法中,設置參數就可以進行模型訓練與調優(yōu)。
頭一個模型我們選擇邏輯回歸模型。邏輯回歸模型的數學背景相對簡單,可以直觀地表示因變量和自變量之間的關系,易于理解和解釋。首先我們將指定的特征與標簽給到模型,并指定迭代次數100次來進行模型訓練(下圖為邏輯回歸算法模型的建立過程)。
通過結果展示發(fā)現模型訓練集acc=81%,測試集acc=80%,該模型已經可以較為準確的預測乳腺癌,但是基于模型的復雜程度,準確率已經很難提升。
第二個模型我們選擇GBDT(梯度提升決策樹)模型。GBDT模型可以自動捕捉變量之間的非線性關系和交互效應,且無需進行特殊的特征工程就可以進行高度準確的預測。
GBDT模型的建立過程與邏輯回歸模型一樣,將指定的特征與標簽給到模型,并指定迭代次數100次來進行模型訓練,發(fā)現模型訓練集acc=85%,測試集acc=82%,模型有點過擬合,需要調整迭代次數或者學習率。在此我們選擇調整迭代次數,當迭代次數為30次時模型比較好,調整后的訓練集acc=85%,測試集acc=86%。(模型結果如下圖所示)
PART
03
模型解讀與應用
通過模型對比,發(fā)現GBDT的準確率更高,訓練集acc=85%,測試集acc=86%。但是在疾病預測業(yè)務中,我們并不只關注模型的準確率,而是更加關注模型的準確率Precision(準確率Precision就是在所有樣本當中,惡性瘤子有沒有被全部檢測出來,也可以理解為模型對1類樣本的辨別能力強不強。)對比兩個模型的準確率我們發(fā)現GBDT模型的準確率高于邏輯回歸模型,說明GBDT模型識別惡性瘤子的能力比邏輯回歸模型好。
在實際醫(yī)學業(yè)務中,我們可以把GBDT模型嵌入到公眾號里,病人可以根據提示輸入病情信息獲得初步診斷,輔助醫(yī)生結合其他檢查結果判斷需不需要進行下一步檢查,以更好的確定具體病癥,及早采取措施。
通過上述案例我們不難發(fā)現數據分析在的疾病監(jiān)測中具有很大的應用潛力。然而本案例只體現了數據分析在疾病的早期診斷和預測方面的效用。在個性化治理方面,數據分析可以更好地監(jiān)測和評估藥物的成效和副作用;在實時監(jiān)測和警報方面,數據分析可以用于開發(fā)智能警報系統,及時通知醫(yī)護人員病人的異常情況……所以數據分析正成為我們戰(zhàn)勝疾病的有力工具。通過合理利用這一工具,我們可以構建一個更加健康、安全和幸福的社會。
CPDA數據分析師簡介
公司成立于2003年,致力于為企業(yè)培養(yǎng)數字化轉型的數據分析師人才,旗下“CPDA數據分析師”認證培訓,是經國家工信部教育與考試中心和中國商業(yè)聯合會數據分析專業(yè)委員會授權指定的培訓品牌。
為了能更好地落實國家政策,支持國家的產業(yè)改革,培養(yǎng)出更多更出色的數據分析人才,特面向全國招募培訓授權中心。
CPDA數據分析師證書:
是中國數據分析行業(yè)證書,由中國商業(yè)聯合會數據分析專業(yè)委員會頒發(fā),考取CPDA證書是對個人執(zhí)業(yè)能力的肯定,與市場上的其他證書有著本質區(qū)別。
特色授課方式:
通過20年的課程研發(fā)和實踐,形成符合數據分析學科特性和學員學習習慣的組合授課方式:70+小時視頻網課+6天面授+ 2門選修課+近1000道模擬習題+Datahoop大數據分析平臺工具+海量微課資源供學員不斷提升,報名成為CPDA學員后,您將享有上述所有課程和工具。
中國商業(yè)聯合會數據分析專業(yè)委員會成立于2008年4月,是經國有資產監(jiān)督管理委員會審核同意、中華人民共和國民政部正式批準和登記的中國數據分析行業(yè)組織。以數據分析師及數據分析師事務所等從事與數據分析行業(yè)相關的團體與個人自愿組成的全國性數據分析行業(yè)組織,是中國較早堅持發(fā)展專業(yè)型、靠專業(yè)推動市場的行業(yè)組織。
- 1 口水雞排生意好做嗎?
- 2 把握機遇,加盟紐哈頓
- 3 大圣駕到全國門店之星出爐
- 4 陳赫的火鍋店能加盟嗎
- 5 一個女人適合開什么店
- 6 旋轉小火鍋加盟連鎖店
- 7 萬順叫車加盟的條件
- 8 早餐車加盟店10大品牌大
- 9 開一家賣啤酒實體店怎么樣
- 10 迪奧加盟需要多少錢