摘要:從基因層面對癌癥進行診斷將有效提高患者的治愈率,但癌癥基因表達數據集通常存在高維、小樣本、高噪聲并且類別不平衡等問題,對此類數據進行分類是一項具有挑戰性的任務.針對這些問題,提出一種基于差分進化的代價敏感Stacking(DE-CStacking)集成的基因表達數據分類算法,采用隨機森林、K近鄰、樸素貝葉斯作為Stacking集成的初級學習器,將代價敏感的支持向量機作為次級學習器,初級學習器的輸出類概率和原始特征集作為次級學習器的輸入,并采用差分進化對這些學習器的參數進行優化.通過在四個UCI的癌癥基因數據上的實驗對比,相對于其他傳統的集成算法,DE-CStacking算法在癌癥基因數據上表現出更好的泛化性能.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
小型微型計算機系統雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:計算機網絡信息安全、算法理論、人工智能分布式計算、計算機圖形與圖像、計算機應用等。于1980年經新聞總署批準的正規刊物。