2013年5月18日 星期六

使用資料探勘演算法預測非肺小細胞肺癌患者存活情形及其效能比較

使用資料探勘演算法預測非肺小細胞肺癌患者存活情形及其效能比較

文章日期:2013-05-17 12:02
資料越來越多,資料探勘也越來越重要,特別是資訊不足的時候,模式很重要
下面研究三種探勘方法,建議用決策樹決定變項,將變項丟進LOGISTIC MODEL,
不過因為樣本數要夠多,四百多個可能都不太夠,
所以樣本不夠就靠類神經方法可能幫得上忙!

Author: 翁紹宏* 陳麗帆 朱基銘 白璐 楊燦 劉立 孫建安
摘要
本研究使用決策樹、類神經網路和邏輯斯迴歸模型三種資料探勘演算法來探討影響非小細胞肺癌的預後因子及影響模型預測能力的因素(不同資料庫、不同死因、單或複合模型和樣本大小)。本研究的研究對象為美國癌症登記資料檔(the Surveillance, Epidemiology, and End Results, SEER),選取自西元1988年至2004年間診斷為非小細胞肺癌患者,並依據死因的不同將其分為死於肺癌與死於轉移癌;資料經過修整後,共有16個自變項納入分析,並根據其存活情形分為一年、三年和五年存活情形。模型的評估指標為準確率(accuracy, ACC)、ROC曲線下的面積(area under the ROC curve, AUC)和外推力(external generalization)。為避免隨機抽樣造成資料的誤差,本研究將對資料庫進行十折交叉驗證(10-fold cross-validation)。

研究結果顯示,影響美國非小細胞肺癌患者死於肺癌的一年、三年和五年存活情形預後因子為手術種類、臨床分組和腫瘤擴散程度;影響非小細胞肺癌患者死於轉移癌的一年、三年和五年存活情形預後因子為手術種類、臨床分期和檢驗淋巴結個數。

三個模型的預測力表現以類神經網路模型的表現較好,外推能力則以邏輯斯廻歸模型表現較好。樣本人數建議為至少為3500人,其中以邏輯氏回歸模型最容易受到小樣本的影響; 決策樹則是會因為資料庫提供的訊息不足而無法成樹。複合模型的部份,其結果顯示,當決策樹的測試組的ACC值較另外兩個模型好時,則複合模型的測試組AUC值就會提高。
關鍵字:lung cancer, decision tree, artificial neural network, logistic regression, SEER