帳號:guest(216.73.216.88)          離開系統
字體大小: 字級放大   字級縮小   預設字形  

詳目顯示

以作者查詢圖書館館藏以作者查詢臺灣博碩士論文系統以作者查詢全國書目
作者(中文):蔡奇軒
作者(外文):Tsai, Chi-Hsuan
論文名稱(中文):應用KNN與SVM預測癌症藥物反應
論文名稱(外文):Prediction of cancer drug response using KNN and SVM
指導教授(中文):黃禮珊
謝叔蓉
指導教授(外文):Huang, Li-Shan
Shieh, Shwu-Rong
口試委員(中文):趙蓮菊
謝文萍
口試委員(外文):Chao, Lien-Ju
Hsieh, Wen-Ping
學位類別:碩士
校院名稱:國立清華大學
系所名稱:統計學研究所
學號:107024515
出版年(民國):109
畢業學年度:108
語文別:中文
論文頁數:35
中文關鍵詞:K-最近鄰居分類法支持向量機
外文關鍵詞:K nearest neighborSupport Vector Machines
相關次數:
  • 推薦推薦:0
  • 點閱點閱:199
  • 評分評分:*****
  • 下載下載:0
  • 收藏收藏:0
個人化醫療的一個挑戰是為不同的癌症病人選擇有用的藥物。一般傳統上評估癌症藥物對癌症病人的藥效是在臨床試驗中進行藥物測試,但是測試數百種藥物通常需要大量的時間和金錢成本。近年來,一些研究《癌症藥物敏感性基因組學》(GDSC)和《癌細胞株百科全書》(CCLE),分別用265種和24種抗癌藥物篩檢了1000多種細胞株(cell lines)。本研究針對GDSC和CCLE中共同的17種藥物,每一種藥都利用基因表達數據和藥物反應來訓練分類器(K-最近鄰居和支持向量機,KNN和SVM)。接著,將訓練好的分類器用來預測CCLE細胞株的藥物反應,而評估訓練好的分類器則是根據曲線下的面積 (AUC)。在本論文中得到KNN與SVM在17種藥物平均的 AUC分別為0.70和0.64。最後,對於FDA批准的肺癌藥物 Erlotinib,利用KNN訓練的分類器在25個非小細胞肺癌(NSCLC)腫瘤測試資料集上的 AUC高達0.80。結果顯示,KNN的平均表現比SVM好。
A challenging research topic in personalized medicine is to select medicines helpful to different subtypes of cancer patients. The conventional evaluation on the effectiveness of cancer drugs is drug testing in clinical trials; however, testing hundreds of drugs often requires a lot of time and money. Recently, some resources Genomics of Drug Sensitivity in Cancer (GDSC) and the Cancer Cell Line Encyclopedia (CCLE), have screened 1000+ cell lines with 265 and 24 cancer drugs, respectively. In this study, I utilized large-scale genomics data and drug response to train classifiers (K nearest neighbor and support vector machine, KNN and SVM) via n-fold cross validation for each of 17 drugs common in both GDSC and CCLE. Next, I applied the trained classifiers to predict drug response of cell lines in CCLE, and found that KNN outperformed SVM (the average area under curve (AUC) for 17 drugs was 0.70 and 0.64, respectively). Finally, for an FDA-approved lung cancer drug Erlotinib, the results showed the trained KNN achieved an AUC as high as 0.80 on a test set of 25 non-small cell lung cancer (NSCLC) tumors. The results show that KNN classification generally performs better than SVM.
1 緒論1
1.1 研究動機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 研究架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 資料介紹與前處理3
2.1 訓練資料集- 癌症藥物敏感性基因組學(GDSC) . . . . . . . . . . . 3
2.2 測試資料集1 - 癌細胞株百科全書(CCLE) . . . . . . . . . . . . . . 3
2.3 測試資料集2 - 癌症病人腫瘤臨床數據(25 NSCLC tumors) . . . . 5
2.4 資料前處理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4.1 基因表達數據前處理. . . . . . . . . . . . . . . . . . . . . . 5
2.4.2 藥物反應的二元分類. . . . . . . . . . . . . . . . . . . . . . 6
3 研究使用方法9
3.1 特徵選取. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 K-最近鄰居分類法. . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3 支持向量機. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3.1 線性可分支持向量機. . . . . . . . . . . . . . . . . . . . . . 14
3.3.2 線性不可分支持向量機. . . . . . . . . . . . . . . . . . . . 15
3.3.3 非線性支持向量機. . . . . . . . . . . . . . . . . . . . . . . 16
3.4 參數選擇. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.5 評估指標. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.6 分析流程架構. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 結果20
4.1 KNN 分析結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.1 訓練資料集- GDSC LOOCV 結果. . . . . . . . . . . . . . 20
4.1.2 測試資料集1 - CCLE 驗證結果. . . . . . . . . . . . . . . . 22
4.1.3 測試資料集2 - 25 NSCLC tumors 驗證結果. . . . . . . . . 23
4.2 SVM 分析結果. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.1 訓練資料集- GDSC LOOCV 結果. . . . . . . . . . . . . . 23
4.2.2 測試資料集1 - CCLE 驗證結果. . . . . . . . . . . . . . . . 25
4.2.3 測試資料集2 - 25 NSCLC tumors 驗證結果. . . . . . . . . 26
4.3 KNN 與SVM 結果比較. . . . . . . . . . . . . . . . . . . . . . . . 26
4.3.1 訓練資料集- GDSC LOOCV 結果比較. . . . . . . . . . . 26
4.3.2 訓練資料集- GDSC 與其他方法的5-fold CV 結果比較. . 28
4.3.3 測試資料集1 - CCLE 驗證結果比較. . . . . . . . . . . . . 29
4.3.4 測試資料集2 - 25 NSCLC tumors 驗證結果比較. . . . . . 31
5 結論與未來研究方向32
5.1 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2 未來研究方向. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
參考文獻34
[1] Barretina, J., Caponigro, G., Stransky, N., Venkatesan, K., Margolin, A. A.,
Kim, S., Wilson, C. J., Lehár, J., Kryukov, G. V., Sonkin, D., Reddy,A.
(2012). The Cancer Cell Line Encyclopedia enables predictive modelling of
anticancer drug sensitivity. Nature, 483(7391), 603–607.
[2] Byers , L. A., Diao, L., Wang, J., Saintigny, P., Girard, L., Peyton, M., Shen,
L., Fan, Y., Giri, U., Tumula, P. K., Nilsson, M. B. (2013). An epithelial–
mesenchymal transition gene signature predicts resistance to EGFR and PI3K
inhibitors and identifies Axl as a therapeutic target for overcoming EGFR
inhibitor resistance. Clinical cancer research, 19(1), 279-290.
[3] Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate:
a practical and powerful approach to multiple testing Journal of the Royal
statistical society: series B (Methodological), 57(1), 289-300.
[4] Collins, F. S. and Varmus, H. (2015). A new initiative on precision medicine.
New England journal of medicine, 372(9), 793-795.
[5] Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational
and psychological measurement, 20(1), 37-46.
[6] Gönen, M. and Margolin, A. A. (2014). Drug susceptibility prediction against
a panel of drugs using kernelized Bayesian multitask learning. Bioinformatics,
30(17), i556-i563.
[7] Haibe-Kains, B., El-Hachem, N., Birkbak, N. J., Jin, A. C., Beck, A. H.,
Aerts, H. J. and Quackenbush, J. (2013). Inconsistency in large pharmacogenomic
studies. Nature, 504(7480), 389-393.
[8] Hart, P. (1968). The condensed nearest neighbor rule (Corresp.). IEEE transactions
on information theory, 14(3), 515-516.
[9] Iorio, F., Knijnenburg, T. A., Vis, D. J., Bignell, G. R., Menden, M. P.,
Schubert, M., Aben, N., Goncalves, E., Barthorpe, S., Lightfoot, H., Cokelaer,
34
T. (2016). A Landscape of Pharmacogenomic Interactions in Cancer. Cell,
166(3), 740-754.
[10] Swets, J. A. (1988). Measuring the accuracy of diagnostic systems. Science,
240(4857), 1285-1293.
[11] Stanfield, Z., Coşkun, M. and Koyutürk, M. (2017). Drug response prediction
as a link prediction problem. Scientific reports, 7, 40321.
[12] Vapnik, V. (1995). The nature of statistical learning theory. Springer science
and business media..
[13] Yang, J., Li, A., Li, Y., Guo, X. and Wang, M. (2019). A novel approach
for drug response prediction in cancer cell lines via network representation
learning. Bioinformatics, 35(9), 1527-1535.
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
* *